Integration of embedded knowledge discovery methods in unstructured information sources

dc.contributorBertone, Rodolfo Alfredo
dc.contributorPesado, Patricia Mabel
dc.creatorRodríguez, Juan Manuel
dc.date2023-06-26
dc.date2023
dc.date2023-08-22T13:01:50Z
dc.date.accessioned2024-07-24T03:39:40Z
dc.date.available2024-07-24T03:39:40Z
dc.identifierhttp://sedici.unlp.edu.ar/handle/10915/156636
dc.identifierhttps://doi.org/10.35537/10915/156636
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/9534806
dc.descriptionLos métodos existentes de extracción de conocimiento para la Web (Open Information Extraction) tienen una precisión y una exhaustividad considerablemente baja, de alrededor del 60% y si bien tienen un gran potencial en cuanto a su aplicabilidad, es necesario mejorar su desempeño. Existen además otros problemas abiertos que están siendo abordados por varios autores como por ejemplo: la extracción de relaciones semánticas no informativas, la extracción de información subjetiva y el soporte para idiomas distintos del inglés. El principal aporte de esta tesis consiste en la publicación de 3 métodos novedosos de extracción de conocimiento para la Web, uno para idioma inglés: ATP-OIE y dos para idioma español: TP-OIE-ES y ECMes. Así mismo, se propone un marco de referencia único para la evaluación de los métodos, esto es la construcción de un conjunto de pruebas y una definición precisa de las métricas a utilizar y de cómo implementarlas. ATP-OIE es un algoritmo autónomo, capaz de aprender de ejemplos y capaz de aprender nuevos patrones de extracción mientras se está ejecutando de forma productiva. Por su parte, TP-OIE-ES replica el comportamiento de ATP-OIE para idioma español, con la salvedad de que no es capaz de aprender nuevos patrones mientras se ejecuta de forma productiva. Por último, ECMes es una versión reentrenada de TP-OIE-ES con otras mejoras adicionales. ECMes ha obtenido un mejor desempeño en idioma español, en los conjuntos evaluados, que otros métodos similares en el estado del arte.
dc.descriptionExisting Open Information Extraction methods have considerably low precision and recall, around 60%, and although they have great potential to be used in applications, their performance needs to be improved. There are also other open problems that are being addressed by different authors such as: the extraction of noninformative semantic relationships, the extraction of subjective information and the support for languages other than English. The main contribution of this thesis consists in the publication of 3 new methods of Open Information Extraction, one for the English language: ATP-OIE and two for the Spanish language: TP-OIE-ES and ECMes. Also a reference framework is proposed for the evaluation of the methods, that is, the construction of a test dataset and a precise definition of the metrics to be used and how to implement them. ATP-OIE is an autonomous algorithm, able to learn from examples and able to learn new extraction patterns while running productively. TP-OIE-ES replicates the behavior of ATP-OIE for the Spanish language, with the exception that it is not capable of learning new patterns while it runs productively. Finally ECMes is a retrained version of TP-OIE-ES with additional improvements. ECMes got a better performance in Spanish language, in the evaluated datasets, than other similar methods in the state of the art.
dc.descriptionAsesor: Hernán Merlino
dc.descriptionDoctor en Ciencias Informáticas
dc.descriptionUniversidad Nacional de La Plata
dc.descriptionFacultad de Informática
dc.formatapplication/pdf
dc.languagees
dc.rightshttp://creativecommons.org/licenses/by/4.0/
dc.rightsCreative Commons Attribution 4.0 International (CC BY 4.0)
dc.subjectCiencias Informáticas
dc.subjectprocesamiento de lenguaje natural
dc.subjectPLN
dc.subjectOpen Information Extraction
dc.subjectOpen IE
dc.subjectrelaciones semánticas
dc.subjectextracción de información
dc.titleIntegración de métodos de descubrimiento de conocimiento embebido en fuentes de información desestructuradas
dc.titleIntegration of embedded knowledge discovery methods in unstructured information sources
dc.typeTesis
dc.typeTesis de doctorado


Este ítem pertenece a la siguiente institución