Tesis Magíster
A principled approach to bridging the gap between rdf data and their schemas
Autor
Díaz-Cáceres, Gonzalo Ignacio
Institución
Resumen
Aunque grafos RDF tienen información de su esquema asociados a ellos, en la prácticaes muy común encontrar situaciones en que los datos no se conforman totalmente a suesquema. Un ejemplo conspicuo es el de DBpedia, que son datos RDF extraídos desdeWikipedia, una fuente de información públicamente editable. En tales situaciones, se tomainteresante estudiar las propiedades estructurales de los datos en sí, dado que el esquemade una descripción incompleta de la organización de una base de datos.En este trabajo nos hemos acercado al estudio de la estructura de un grafo RDF desdeprimeros principios: proponemos un marco teórico para especificar funciones de estructura,que miden el grado de conformancia entre un grafo RDF y un esquema. En particular,primero se define un lenguaje formal para la especificación de funciones de estructura medianteexpresiones que denominamos reglas. Este lenguaje permite a un usuario o a unadministrador de una base de datos especificar una regla a la cual un grafo RDF puedeconformarse de forma total o parcial. Luego, consideramos el problema de encontrar unrefinamiento de un tipo (sort) mediante la partición de la base de datos en subconjuntoscuyo valor de estructura debe estar por sobre un valor crítico predeterminado. En particular,demostramos que el problema de decisión natural asociado a este problema derefinamiento es NP-completo, y diseñamos una reducción natural de este problema a unainstancia de Programación Lineal Entera (ILP). Finalmente, ponemos esta solución ILP aprueba con dos bases de datos reales, Personas de DBpedia y Sustantivos de WordNet, y 4reglas diferentes e intuitivas, que miden la estructura de formas diferentes. Las reglas resultasdar refinamientos razonables de las bases de datos, mostrando que nuestro lenguajepuede ser una herramienta potente para entender la estructura de los datos RDF. PFCHA-Becas Magister en Ciencias de la Ingeniería 72p. PFCHA-Becas TERMINADA