Tesis
ReGraph = bridging relational and graph databases = ReGraph: interligando bancos de dados relacionais e de grafos
ReGraph : interligando bancos de dados relacionais e de grafos
Registro en:
Autor
Cavoto, Patrícia Raia Nogueira, 1983-
Institución
Resumen
Orientador: André Santanchè Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação Resumo: Redes estão em todos os lugares. Desde interações sociais: família, amigos, hobbies; passando pela computação: computadores conectados na Internet; e até mesmo na natureza: cadeias alimentares. Pesquisas recentes mostram a importância das conexões entre os dados e também da análise das redes para descobrir novos conhecimentos nos dados existentes. Além disso, os esforços para a disponibilização de dados padronizados na Internet ¿ Linked Open Data e Semantic Web ¿ têm proporcionado o crescimento de repositórios abertos de conhecimento na rede; a maioria utilizando o modelo de grafos RDF (Resource Description Framework). Contudo, muitos dados são armazenados em bancos de dados relacionais, cujo modelo não foi projetado para atender consultas com alto grau de transitividade nos relacionamentos. Por outro lado, o modelo flexível de grafos tem um ótimo desempenho nas análises envolvendo relacionamentos transitivos entre os dados e na topologia da rede, como por exemplo, em uma análise de componentes conexas. Portanto, nossa pesquisa é inspirada pela abordagem OLAP (OnLine Analytical Processing) para a criação de uma base especial orientada à análise dos dados com foco nas ligações e na topologia da rede, utilizando grafos. Nesta dissertação, nós apresentamos o ReGraph, um framework para mapear dados de uma base relacional para uma base de grafos, gerenciando a coexistência e evolução de ambas as bases, funcionalidade esta que não é contemplada pelos trabalhos relacionados. O ReGraph tem baixo impacto na infraestrutura existente, permitindo a geração de um modelo de grafos flexível e adaptado a cada esquema relacional mapeado. Utiliza um processo inicial de ETL (Extract, Transform and Load) para replicar os dados existentes no modelo relacional para o modelo de grafos. O serviço de sincronismo é responsável por refletir automaticamente as alterações realizadas no modelo relacional para o modelo de grafos. O framework também provê uma funcionalidade para anotação dos dados no grafo, que permite materializar inferências e incluir novas informações, possibilitando a conexão dos dados existentes no grafo local com outros grafos de conhecimento disponibilizados na Web. Neste trabalho, utilizamos o ReGraph para gerar o FishGraph, uma base de dados de grafos criada a partir da base relacional FishBase. Usando a base de dados FishGraph, realizamos experimentos envolvendo a análise das conexões entre milhares de chaves de identificação e espécies de peixes e conectamos estes dados com a DBpedia, criando anotações na base de grafos local que geraram novas informações a partir dos dados existentes Abstract: Networks are everywhere. From social interactions: family, friends, hobbies; passing through computer science: computers on the Internet; to nature: as food chains. Recent research shows the importance of links and network analysis to discover knowledge in existing data. Moreover, the Linked Open Data and Semantic Web efforts empowered the fast growth of open knowledge repositories on the web, mainly in the RDF (Resource Description Framework) graph model. However, a lot of data are stored in relational databases, whose model has not been designed to address queries with many transitive relations. On the other hand, the flexible graph model is suitable for data analysis focusing on links, their transitivity and the network topology, e.g., a connected component analysis. Therefore, our research is inspired by the data OLAP (OnLine Analytical Processing) approach of creating a special database designed for data analysis, a network-driven data analysis, using graph databases. In this dissertation, we present ReGraph, a framework to map data from a relational to a graph database, managing a dynamic coexistence and evolution of both, not supported by related work. ReGraph has minimum impact on the existing infrastructure, providing a flexible and tailored graph model for each relational schema. It uses an initial ETL (Extract, Transform and Load) process to replicate the existing data in the graph database. A scheduled service is responsible for automatically reflecting changes in the relational data into the graph, keeping both synchronized. ReGraph also provides an annotation functionality to materialize inferences and to support data enrichment, which enables linking the local database to global knowledge graphs on the Web. We have used the ReGraph framework to generate FishGraph, a graph database created from the FishBase relational database. Using FishGraph we developed experiments to analyze the connections among thousands of identification keys and species, and we have linked local data to DBpedia, creating annotations over the local graph and providing new knowledge from existing data Mestrado Ciência da Computação Mestra em Ciência da Computação