Trabajo de grado - Maestría
Sistema para la búsqueda de documentos biomédicos basado en aprendizaje profundo
Fecha
2020Registro en:
Universidad Nacional de Colombia
Repositorio Institucional Universidad Nacional de Colombia
Autor
Pineda Vargas, Mónica Patricia
Institución
Resumen
This dissertation explored the use of strategies based on deep learning to address the information retrieval task in the biomedical domain. We implemented a system composed of three main phases. First, the Recovery Phase, where for a given question we aimed to extract a subset of the most relevant documents out of indexed documents. We obtained the best result using the DFR (Divergence From Randomness) algorithm with the model base I (f) (Inverse term frequency model), the posterior effect L (an information gain model based on Laplace's law of succession) and used H2 normalization (frequency is inversely related to length). The second phase seeked to filter the aforementioned subset of the most relevant documents using deep learning strategies. The use of Word Mover's Distance and Document Centroid was proposed as a baseline and they were compared with two models based on BERT. Here we obtained the best result out of the pre-trained BERT model for Question Answering, which allowed filtering documents that do not contain sufficient evidence to answer the associated question. In the last phase of the system, two document reordering strategies were explored. The first one is based on reordering the documents by passages that combine two types of representation for pairs (of the type question, passage) using textual representation and conceptual representation. This, to take advantage of the use of knowledge generated by experts in ontologies, for example. The second strategy was based on Metric Learning, we used a network of three inputs (question, answer +, answer−) and again took advantage of the use of structured information from biomedical concepts that were extracted from QuickUMLS [Soldaini and Goharian, 2016]. The proposed systems were evaluated using the test sets presented at the BioASQ 2019 competition and were compared against the best solution to a given task in each of the sets. We concluded that the system that obtains the best results for MAP (Mean Average Precision) is the one made up of DFR for initial retrieval, BERT for QA for document filtering and Metric Learning using conceptual information for reordering. En este trabajo se explora el uso de estrategias basadas en aprendizaje profundo para la tarea de recuperación de información en el dominio biomédico. Se propone un sistema compuesto por tres fases principales: Fase de recuperación, en donde se busca extraer de un conjunto de documentos indexados, un subconjunto de los documentos más relevantes dada una pregunta, obteniendo como mejor resultado el algoritmo DFR (Divergence from Randomness) con el modelo base I(f) (Modelo de frecuencia de término inverso), efecto posterior L (Modelo de ganancia de información basado en la ley de sucesión de Laplace) y normalización H2 (La frecuencia está inversamente relacionada con la longitud). La segunda fase busca filtrar el subconjunto de documentos más relevantes usando estrategias con aprendizaje profundo. Se propone como línea base el uso de Word Mover's Distance y Document Centroid y se comparan con dos modelos basados en BERT obteniendo como mejor resultado el modelo de BERT pre-entrenado para Question Answering que permite filtrar los documentos que no contienen evidencia suficiente para responder la pregunta asociada. En la última fase del sistema se exploran dos estrategias de reordenamiento de documentos, la primera de ellas basada en reordenamiento por pasajes que combina dos tipos de representación para los pares (pregunta, pasaje) usando representación textual y representación conceptual buscando aprovechar el uso del conocimiento generado por expertos como las ontologías. La segunda estrategia está basada en Metric Learning usando una red de tres entradas $(pregunta, respuesta+, respuesta-)$ y aprovechando nuevamente el uso de información estructurada proveniente de los conceptos biomédicos extraídos de QuickUMLS. Los sistemas propuestos se evaluaron usando los conjuntos de test presentados por la competencia BioASQ 2019 y fueron comparados contra la mejor solución de la competencia en cada conjunto. Se concluye que el sistema que obtiene mejores resultados para MAP (Mean Average Precision) es el compuestos por DFR para la recuperación inicial, BERT for QA para el filtrado de documentos y Metric Learning usando información conceptual para el reordenamiento. (Texto tomado de la fuente).