México
|
Integración semántica de fuentes heterogéneas de datos meteorológicos con base en datos vinculados
Fecha
2019-11-13Registro en:
Cabrera Rivera, Luis. (2018). Integración semántica de fuentes heterogéneas de datos meteorológicos con base en datos vinculados. (Doctorado en Ciencias de la Computación). Instituto Politécnico Nacional, Centro de Investigación en Computación, México.
Autor
Cabrera Rivera, Luis
Institución
Resumen
RESUMEN:
En la actualidad se generan una gran cantidad de información meteorológica y de calidad del aire por parte de las instituciones gubernamentales y de fuentes voluntarias, sin embargo, al provenir la información de diferentes fuentes, se genera un problema de heterogeneidad en la información, provocando que, a pesar de tener una gran cantidad de datos, estos no se exploten de manera conjunta.
Por todo lo anterior, en este trabajo se propone una metodología capaz de integrar la información semánticamente, que proviene de las fuentes de datos oficial y voluntarias, ya sean de tipo estático o dinámico, utilizando los principios de Linked Data para enriquecer la información.
Esta metodología esta conformada por cuatro bloques: 1) Recolección de datos, 2) Pre procesamiento, 3) Integración Semántica y 4) Análisis. El primer componente ese centra en la recolección de datos, que se lleva a cabo de dos maneras diferentes: estática y dinámica; El segundo componente es el asociado con el pre-procesamiento de los datos que han sido recuperados por el componente anterior; El tercer componente es el módulo de integración semántica, este componente recoge el detalle de la implementación de la red ontológica, además de la población de la red ontológica a través de un proceso automático de generación de RDF y el establecimiento de conexiones a la nube de Linked Data. Finalmente, el componente de análisis que permite explotar los datos integrados semánticamente a través de diversas operaciones de análisis.
Como resultado se obtiene un repositorio de datos integrados semánticamente, el cual es explotable para su análisis. Como caso de estudio se tomó Ciudad de México, por las diversas estaciones tanto oficiales como voluntarias que existen en ella.
ABSTRACT:
Currently a lot of meteorological and air quality information are generated by government institutions and voluntary sources, however, all the information comes from different sources, generates a heterogeneity problem on information, this causing that despite a large amount of data, this without using both sources at same time.
Because of the previously, in this work propose a methodology capable of integrate semantically the information, from the official and voluntary sources, whether static or dynamic type, this using the Linked Data principles to enrich the retrieved information.
This methodology is composed by four components: 1) Data recollection, 2) Pre-processing, 3) Semantic integration and 4) Analysis. The first component focuses in recollecting data, from two different ways: static and dynamic; The second component focuses is associate with pre-processing from data retrieved from last component. The third component focuses in the semantic integration, this recollect all details from the develop of the ontological network, also of the population of the ontology network through an automatic process of generation of RDF files and make all connections to Linked Data Cloud. Finally, the fourth block focuses in exploit the integrate semantic data through different analysis operations.
As result is obtained a semantic integrated data repository, that can be exploit for analysis. As case of study is considering the Mexico City, because all different stations both official and voluntary that exist in the city.