Tesis
Evaluación de herramientas comerciales y métodos del estado del arte para la generación de resúmenes en idioma ruso
Autor
ROJAS SANCHEZ, JESSICA MARIBEL
Institución
Resumen
Con el crecimiento exponencial de la información, la tarea de su comprensión se vuelve más difícil. Una forma de ayudar en esta tarea, es mediante la generación automática de resúmenes de texto. El objetivo de estos resúmenes, es presentar el contenido en una versión más corta que la del texto original, y que permita al usuario comprender más rápido el gran volumen de información.
Los métodos de integración de textos se pueden clasificar en extractivos y abstractivos. Los resúmenes abstractivos utilizan métodos lingüísticos para examinar e interpretar el texto y luego encontrar nuevos conceptos y expresiones, para describir mejor la generación de un nuevo texto más corto, que trasmite la información más importante del documento original Debido a esto, tales resúmenes hasta hoy los realizan los seres humanos. Por su parte, un resumen extractivo está compuesto con fragmentos del documento original. El principal objetivo de la generación de resúmenes extractivos es la selección automática de frases (frases, oraciones o párrafos) de texto que reflejarían de manera adecuada el contenido del documento. Estos últimos son los que se utilizan para la generación automática de resúmenes.
Dado que los trabajos tomados en cuenta del estado del arte, operan con corpus en idiomas inglés, portugués y español. Surge el interés de conocer la calidad de las herramientas comerciales si se utiliza en otro idioma. En el presente trabajo de tesis se realiza la evaluación de las herramientas comerciales y los métodos del estado del arte para la generación automática de resúmenes en el idioma ruso.
Para la selección de las herramientas comerciales se analizaron cuáles de ellas están a disposición, y a su vez realizan resúmenes en idioma ruso. Las herramientas comerciales seleccionadas en línea fueron: Open Text Summarizer, Text Compactor, Tools4noobs, T-Conspectus. Las herramientas comerciales instalables elegidas fueron: Microsoft Word 2003 y Microsoft Word 2007, en estas dos últimas herramientas se probaron en los sistemas operativos Windows: VISTA, XP, 7 Ultimate y 8. La selección de los métodos del estado del arte, se tomaron en cuenta los trabajos más relacionados de los cuales se tiene mayor información.
La aportación de este trabajo es la creación del corpus en el idioma ruso que lleva por el nombre TEXTRUSS. Está compuesto de 242 noticias contenidas en 11 categorías, con la finalidad de tener mayor diversidad de temas. Tal corpus se utiliza para generar resúmenes tanto como para las herramientas comerciales como para los métodos del estado del arte. La segunda aportación consiste en realizar la evaluación de herramientas comerciales y métodos del estado de arte.
Para la evaluación de los resúmenes se utilizó el sistema ROUGE el cual mide la similitud y determina la calidad de un resumen automático. Se muestran los resultados obtenidos.