Tesis
Generación automática de resúmenes de múltiples documentos
Autor
ESAU VILLATORO TELLO
Institución
Resumen
In this era, where electronic text information is exponentially growing and where
time is a critical resource, it has become virtually impossible for any user to browse
or read large numbers of individual documents. It is therefore important to explore
methods of allowing users to locate and browse information quickly within collections
of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights
and/or relevant portions of document collections. Now days, there has been little
work with multi-document summarization, although single document summarization
has been subject of focus in the last few years.
Multi-document summarization differs from single document summarization in
that the issues of compression levels, management of redundant information and the
method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and
languages, it must be relatively independent of natural language understanding (i.e.,
scarce use of linguistic resources).
The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques
has as a main goal to identify an extract relevant sentences. The main characteristic of
the proposed classifier is that uses word sequences as features to represent sentences.
The second module consists of a clustering process, the main goal of this is to organize
the information extracted by the classifier and find the main sub-themes contained
in the collection, this module also deals with the problem of redundant information
and the compression levels.
The main goal of the proposed approach is to reduce the portability problems of
current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other
systems was made. The evaluations showed that the proposal is useful for the creation
of multi-document summaries of high quality and allows the creation of summaries
that are very similar to those created by humans. En la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un
recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar
y leer toda esta información disponible. Es por esta razón, que surge la importancia
de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera
rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos
al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección
de documentos. Actualmente los sistemas de generación de resúmenes de múltiples
documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar
el resumen de un documento se le ha puesto gran interés en los últimos años.
La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea
de generar el resumen de un documento en: los niveles de compresión que deben
ser manejados, la aparición de información redundante y la forma de seleccionar las
porciones de información relevantes, juega un papel crítico al momento de crear un
resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil
en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con
técnicas que no hagan uso de costosos recursos lingüísticos.
La arquitectura que se propone para solucionar el problema de generar el resumen
de múltiples documentos, se compone de dos grandes módulos. El primero, basado en
técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección
de la información relevante. La característica principal de este módulo es el uso de
secuencias de palabras para representar las oraciones de los documentos. El segundo
módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo
principal organizar la información por sub-temas, eliminar redundancias y controlar
los niveles de compresión.
El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos
sistemas.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA