dc.contributor | MANUEL MONTES Y GOMEZ | |
dc.contributor | LUIS VILLASEÑOR PINEDA | |
dc.creator | ANTONIO JUAREZ GONZALEZ | |
dc.date | 2007-01 | |
dc.date.accessioned | 2023-07-25T16:21:58Z | |
dc.date.available | 2023-07-25T16:21:58Z | |
dc.identifier | http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/623 | |
dc.identifier.uri | https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805841 | |
dc.description | Nowadays there is a huge amount of information available in the Web as well as in
private document collections. This situation has heightened the need for automatic
techniques to facilitate the access to all this information. In particular, in the field
of automatic text processing there is a new research area called Question Answering
(QA), which addresses the problem of specific information retrieval. The purpose
of a QA system is to give answers to questions formulated in natural language. A
QA system has usually three modules: one for question processing, other for passage
retrieval, and another for answer extraction. Current developments are still unsatisfactory for treating factual questions, especially in Spanish language. The main cause
of problem lies in the answer extraction module, due to the difficulty of finding an
appropriate way to combine the lexical, syntactic and semantic attributes of the pairs
question-answer. Handmade rules and heuristic methods are the most used approaches to combine such attributes. Unfortunately, these strategies are not viable when
there are a lot of attributes. This thesis addresses the problem of answer extraction for
factual questions stated in Spanish language. The proposed method uses a machine
learning approach that automatically combines a set of 17 attributes at lexical level.
With this method we avoid the manual construction of extraction rules and heuristics
created by an intensive analysis of large question-answer sets. Experimental results
show that the proposed method may achieved a precision as high as 77% working
under ideal conditions (when receives a perfect set of passages), and that it reaches
an effectiveness of 39.86% when it was used as part of a complete QA system. | |
dc.description | Dada la inmensa información presente en la Web y en colecciones privadas de documentos, surge la necesidad de técnicas que permitan extraer información relevante.
Dentro del Tratamiento Automático de Texto, el área llamada Búsqueda de Respuestas (en Inglés Question Answering), aborda el problema de recuperación de información específica al responder preguntas sencillas formuladas en lenguaje cotidiano. Un
sistema de BR (Búsqueda de Respuestas) se compone típicamente de tres módulos:
Procesamiento de la Pregunta, Recuperación de Pasajes y Extracción de la Respuesta. Hoy en día, los esfuerzos realizados en los sistemas de BR son insuficientes para
tratar preguntas de tipo factual, sobre todo para el idioma Español. Una de las causas
del bajo desempeño de los sistemas actuales se encuentra en el módulo de Extracción
de la Respuesta, debido a la dificultad que representa combinar las características
léxicas, sintácticas o semánticas de los pares pregunta-respuesta. Combinaciones lineales o métodos heurísticos son las formas de combinación más utilizadas, lo cual
es poco viable cuando el número de características consideradas es alto. El presente
trabajo de tesis aborda el problema de Extracción de la Respuesta para preguntas
factuales en idioma Español, bajo un enfoque de Aprendizaje Automático utilizando
17 características léxicas. La importancia de la propuesta radica en aprovechar sólo
características léxicas de la pregunta y la respuesta, para entrenar un clasificador que
automáticamente combine dichas características y determine cuál es la respuesta correcta. Esto evita el trabajo de generar de manera manual, combinaciones lineales o
métodos heurísticos observando grandes conjuntos de instancias pregunta-respuesta.
Resultados experimentales muestran una efectividad del módulo de extracción desarrollado de hasta un 77 %, considerando un desempeño perfecto en los dos primeros
módulos, y del 39.86% al utilizarlo dentro un sistema de BR. | |
dc.format | application/pdf | |
dc.language | spa | |
dc.publisher | Instituto Nacional de Astrofísica, Óptica y Electrónica | |
dc.relation | citation:Juárez-González A | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | http://creativecommons.org/licenses/by-nc-nd/4.0 | |
dc.subject | info:eu-repo/classification/Análisis de texto/Text analysis | |
dc.subject | info:eu-repo/classification/Ligüística computacional/Computational linguistics | |
dc.subject | info:eu-repo/classification/Aprendizaje (inteligencia artificial)/Learning (artificial intelligence) | |
dc.subject | info:eu-repo/classification/cti/1 | |
dc.subject | info:eu-repo/classification/cti/12 | |
dc.subject | info:eu-repo/classification/cti/1203 | |
dc.subject | info:eu-repo/classification/cti/120323 | |
dc.subject | info:eu-repo/classification/cti/120323 | |
dc.title | Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos | |
dc.type | info:eu-repo/semantics/masterThesis | |
dc.type | info:eu-repo/semantics/acceptedVersion | |
dc.audience | students | |
dc.audience | researchers | |
dc.audience | generalPublic | |