Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos

ANTONIO JUAREZ GONZALEZ

dc.contributor	MANUEL MONTES Y GOMEZ
dc.contributor	LUIS VILLASEÑOR PINEDA
dc.creator	ANTONIO JUAREZ GONZALEZ
dc.date	2007-01
dc.date.accessioned	2023-07-25T16:21:58Z
dc.date.available	2023-07-25T16:21:58Z
dc.identifier	http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/623
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805841
dc.description	Nowadays there is a huge amount of information available in the Web as well as in private document collections. This situation has heightened the need for automatic techniques to facilitate the access to all this information. In particular, in the field of automatic text processing there is a new research area called Question Answering (QA), which addresses the problem of specific information retrieval. The purpose of a QA system is to give answers to questions formulated in natural language. A QA system has usually three modules: one for question processing, other for passage retrieval, and another for answer extraction. Current developments are still unsatisfactory for treating factual questions, especially in Spanish language. The main cause of problem lies in the answer extraction module, due to the difficulty of finding an appropriate way to combine the lexical, syntactic and semantic attributes of the pairs question-answer. Handmade rules and heuristic methods are the most used approaches to combine such attributes. Unfortunately, these strategies are not viable when there are a lot of attributes. This thesis addresses the problem of answer extraction for factual questions stated in Spanish language. The proposed method uses a machine learning approach that automatically combines a set of 17 attributes at lexical level. With this method we avoid the manual construction of extraction rules and heuristics created by an intensive analysis of large question-answer sets. Experimental results show that the proposed method may achieved a precision as high as 77% working under ideal conditions (when receives a perfect set of passages), and that it reaches an effectiveness of 39.86% when it was used as part of a complete QA system.
dc.description	Dada la inmensa información presente en la Web y en colecciones privadas de documentos, surge la necesidad de técnicas que permitan extraer información relevante. Dentro del Tratamiento Automático de Texto, el área llamada Búsqueda de Respuestas (en Inglés Question Answering), aborda el problema de recuperación de información específica al responder preguntas sencillas formuladas en lenguaje cotidiano. Un sistema de BR (Búsqueda de Respuestas) se compone típicamente de tres módulos: Procesamiento de la Pregunta, Recuperación de Pasajes y Extracción de la Respuesta. Hoy en día, los esfuerzos realizados en los sistemas de BR son insuficientes para tratar preguntas de tipo factual, sobre todo para el idioma Español. Una de las causas del bajo desempeño de los sistemas actuales se encuentra en el módulo de Extracción de la Respuesta, debido a la dificultad que representa combinar las características léxicas, sintácticas o semánticas de los pares pregunta-respuesta. Combinaciones lineales o métodos heurísticos son las formas de combinación más utilizadas, lo cual es poco viable cuando el número de características consideradas es alto. El presente trabajo de tesis aborda el problema de Extracción de la Respuesta para preguntas factuales en idioma Español, bajo un enfoque de Aprendizaje Automático utilizando 17 características léxicas. La importancia de la propuesta radica en aprovechar sólo características léxicas de la pregunta y la respuesta, para entrenar un clasificador que automáticamente combine dichas características y determine cuál es la respuesta correcta. Esto evita el trabajo de generar de manera manual, combinaciones lineales o métodos heurísticos observando grandes conjuntos de instancias pregunta-respuesta. Resultados experimentales muestran una efectividad del módulo de extracción desarrollado de hasta un 77 %, considerando un desempeño perfecto en los dos primeros módulos, y del 39.86% al utilizarlo dentro un sistema de BR.
dc.format	application/pdf
dc.language	spa
dc.publisher	Instituto Nacional de Astrofísica, Óptica y Electrónica
dc.relation	citation:Juárez-González A
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/Análisis de texto/Text analysis
dc.subject	info:eu-repo/classification/Ligüística computacional/Computational linguistics
dc.subject	info:eu-repo/classification/Aprendizaje (inteligencia artificial)/Learning (artificial intelligence)
dc.subject	info:eu-repo/classification/cti/1
dc.subject	info:eu-repo/classification/cti/12
dc.subject	info:eu-repo/classification/cti/1203
dc.subject	info:eu-repo/classification/cti/120323
dc.subject	info:eu-repo/classification/cti/120323
dc.title	Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.audience	students
dc.audience	researchers
dc.audience	generalPublic

Este ítem pertenece a la siguiente institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Extracción de respuestas mediante aprendizaje automático utilizando atributos léxicos

Este ítem pertenece a la siguiente institución

Ítems relacionados

Compendio de innovaciones socioambientales en la frontera sur de México ﻿

Caminar el cafetal: perspectivas socioambientales del café y su gente ﻿

Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México ﻿

Compendio de innovaciones socioambientales en la frontera sur de México

Caminar el cafetal: perspectivas socioambientales del café y su gente

Cambio social y agrícola en territorios campesinos. Respuestas locales al régimen neoliberal en la frontera sur de México