dc.contributorMANUEL MONTES Y GOMEZ
dc.contributorLUIS VILLASEÑOR PINEDA
dc.creatorANTONIO JUAREZ GONZALEZ
dc.date2007-01
dc.date.accessioned2023-07-25T16:21:58Z
dc.date.available2023-07-25T16:21:58Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/623
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/7805841
dc.descriptionNowadays there is a huge amount of information available in the Web as well as in private document collections. This situation has heightened the need for automatic techniques to facilitate the access to all this information. In particular, in the field of automatic text processing there is a new research area called Question Answering (QA), which addresses the problem of specific information retrieval. The purpose of a QA system is to give answers to questions formulated in natural language. A QA system has usually three modules: one for question processing, other for passage retrieval, and another for answer extraction. Current developments are still unsatisfactory for treating factual questions, especially in Spanish language. The main cause of problem lies in the answer extraction module, due to the difficulty of finding an appropriate way to combine the lexical, syntactic and semantic attributes of the pairs question-answer. Handmade rules and heuristic methods are the most used approaches to combine such attributes. Unfortunately, these strategies are not viable when there are a lot of attributes. This thesis addresses the problem of answer extraction for factual questions stated in Spanish language. The proposed method uses a machine learning approach that automatically combines a set of 17 attributes at lexical level. With this method we avoid the manual construction of extraction rules and heuristics created by an intensive analysis of large question-answer sets. Experimental results show that the proposed method may achieved a precision as high as 77% working under ideal conditions (when receives a perfect set of passages), and that it reaches an effectiveness of 39.86% when it was used as part of a complete QA system.
dc.descriptionDada la inmensa información presente en la Web y en colecciones privadas de documentos, surge la necesidad de técnicas que permitan extraer información relevante. Dentro del Tratamiento Automático de Texto, el área llamada Búsqueda de Respuestas (en Inglés Question Answering), aborda el problema de recuperación de información específica al responder preguntas sencillas formuladas en lenguaje cotidiano. Un sistema de BR (Búsqueda de Respuestas) se compone típicamente de tres módulos: Procesamiento de la Pregunta, Recuperación de Pasajes y Extracción de la Respuesta. Hoy en día, los esfuerzos realizados en los sistemas de BR son insuficientes para tratar preguntas de tipo factual, sobre todo para el idioma Español. Una de las causas del bajo desempeño de los sistemas actuales se encuentra en el módulo de Extracción de la Respuesta, debido a la dificultad que representa combinar las características léxicas, sintácticas o semánticas de los pares pregunta-respuesta. Combinaciones lineales o métodos heurísticos son las formas de combinación más utilizadas, lo cual es poco viable cuando el número de características consideradas es alto. El presente trabajo de tesis aborda el problema de Extracción de la Respuesta para preguntas factuales en idioma Español, bajo un enfoque de Aprendizaje Automático utilizando 17 características léxicas. La importancia de la propuesta radica en aprovechar sólo características léxicas de la pregunta y la respuesta, para entrenar un clasificador que automáticamente combine dichas características y determine cuál es la respuesta correcta. Esto evita el trabajo de generar de manera manual, combinaciones lineales o métodos heurísticos observando grandes conjuntos de instancias pregunta-respuesta. Resultados experimentales muestran una efectividad del módulo de extracción desarrollado de hasta un 77 %, considerando un desempeño perfecto en los dos primeros módulos, y del 39.86% al utilizarlo dentro un sistema de BR.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Juárez-González A
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Análisis de texto/Text analysis
dc.subjectinfo:eu-repo/classification/Ligüística computacional/Computational linguistics
dc.subjectinfo:eu-repo/classification/Aprendizaje (inteligencia artificial)/Learning (artificial intelligence)
dc.subjectinfo:eu-repo/classification/cti/1
dc.subjectinfo:eu-repo/classification/cti/12
dc.subjectinfo:eu-repo/classification/cti/1203
dc.subjectinfo:eu-repo/classification/cti/120323
dc.subjectinfo:eu-repo/classification/cti/120323
dc.titleExtracción de respuestas mediante aprendizaje automático utilizando atributos léxicos
dc.typeinfo:eu-repo/semantics/masterThesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución