Tesis
DESEMPEÑO DE LOS MÉTODOS DEL ESTADO DEL ARTE PARA LA GENERACIÓN AUTOMÁTICA DE RESÚMENES EXTRACTIVOS PARA EL CORPUS TEXTRUSS
Autor
Hernández Maya, Paloma Teresa
Institución
Resumen
Hoy en día la información digital crece de manera exponencial. Por esto, cuando se realiza una investigación sobre un tema específico en un motor de búsqueda (Google Search, Yahoo! Search) nos genera demasiados resultados, por lo cual se complica revisar todos los documentos recuperados que contengan las palabras de la consulta. Uno de los recursos más eficientes utilizados por los usuarios para condensar el volumen de información es el uso de resúmenes.
Un resumen es un texto corto producido a partir de uno o más documentos, clasificado en abstractivo o extractivo. El resumen extractivo se crea a partir de la selección de oraciones sobresalientes del texto original, por otro lado, el resumen abstractivo consiste en interpretar el texto en menos palabras.
Además, existen dos tareas en la generación de un resumen: a partir de un solo documento o a partir de múltiples documentos. El resumen generado de un solo documento consiste en generar un texto corto, mientras que el resumen generado por múltiples documentos consiste en generar un texto corto con los elementos relevantes de éstos.
En este trabajo de tesis se utiliza el resumen de tipo extractivo y con la tarea de un solo documento.
Se han elaborado diversos trabajos que determinan el desempeño de las herramientas comerciales y métodos del estado del arte para la generación automática de resúmenes en el idioma inglés, español, portugués y ruso; utilizando conjuntos de documentos como entrada llamados corpus, los cuales son orientados al dominio de noticias. Sin embargo, en el caso del idioma ruso no se han utilizado diversos métodos del estado del arte.
En este trabajo de tesis se determina el desempeño de los métodos del estado del arte para la generación automática de resúmenes extractivos de un solo documento utilizando el corpus TEXTRUSS, por medio de la herramienta de evaluación ROUGE (Lin, 2004), utilizando la medida F-measure como indicador de evaluación.
Se realizaron experimentos con diferentes configuraciones de parámetros de los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso. Además, se comparan los resultados de los métodos del estado del arte para determinar su desempeño.