Trabajo de grado - Maestría
Natural language processing techniques for document retrieval in the biomedical domain
Fecha
2021Registro en:
instname:Universidad de los Andes
reponame:Repositorio Institucional Séneca
Autor
Zuluaga Cajiao, Adelaida
Institución
Resumen
Document Retrieval in the biomedical domain has been broadening through time, as a consequence of the growth of the available biomedical literature. Therefore, there is an increasing number of researches made in this knowledge field especially focused on this Natural Language Processing application. Having such a big amount of data turns out to be beneficial for decision-making in this domain, but a sufficiently accurate document retrieval system is required. A large number of NLP techniques and models have been proposed for text matching, but few of them have been able to consider the variations of language and the relationship between distant words in texts. This work is focused on formulating a method based on graph structures for building up a Document Retrieval system for the biomedical domain, and comparing the obtained results with traditional Document Retrieval techniques. The graph-based methods were selected to prove the importance of analyzing the semantic, syntactic, and long-distant word relationships in texts. It will be demonstrated that through the graph's topology the system is capable of extracting the structural information of documents, which solves relevant issues that are faced in this research area. La recuperación de documentos en el ámbito biomédico se ha ido ampliando a lo largo del tiempo, como consecuencia del crecimiento de la literatura biomédica disponible. Por lo tanto, hay un número creciente de investigaciones realizadas en este campo del conocimiento especialmente enfocadas en esta aplicación de Procesamiento de Lenguaje Natural. Tener una cantidad tan grande de datos resulta beneficioso para la toma de decisiones en este dominio, pero se requiere un sistema de recuperación de documentos lo suficientemente preciso. Se han propuesto una gran cantidad de técnicas y modelos de PLN para la correspondencia de textos, pero pocas de ellas han podido considerar las variaciones del lenguaje y la relación entre palabras distantes en los textos. Este trabajo se centra en formular un método basado en estructuras gráficas para construir un sistema de Recuperación de Documentos para el dominio biomédico, y comparar los resultados obtenidos con las técnicas tradicionales de Recuperación de Documentos. Los métodos basados ??en grafos se seleccionaron para demostrar la importancia de analizar las relaciones de palabras semánticas, sintácticas y de larga distancia en los textos. Se demostrará que a través de la topología del grafo el sistema es capaz de extraer la información estructural de los documentos, lo que resuelve cuestiones relevantes que se enfrentan en esta área de investigación.