dc.contributorLUIS VILLASEÑOR PINEDA
dc.contributorMANUEL MONTES Y GOMEZ
dc.creatorESAU VILLATORO TELLO
dc.date2007-02
dc.date.accessioned2018-11-19T14:28:28Z
dc.date.available2018-11-19T14:28:28Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/670
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/2258813
dc.descriptionIn this era, where electronic text information is exponentially growing and where time is a critical resource, it has become virtually impossible for any user to browse or read large numbers of individual documents. It is therefore important to explore methods of allowing users to locate and browse information quickly within collections of documents. Automatic text summarization of multiple documents fulfills such information seeking goals by providing a method for the user to quickly view highlights and/or relevant portions of document collections. Now days, there has been little work with multi-document summarization, although single document summarization has been subject of focus in the last few years. Multi-document summarization differs from single document summarization in that the issues of compression levels, management of redundant information and the method used for the sentence selection are critical in the formation of useful summaries. If multi-document summarization needs to be useful across subject areas and languages, it must be relatively independent of natural language understanding (i.e., scarce use of linguistic resources). The proposed approach to solve the task of multi-document summarization contains two main modules. The first one, a module based on machine learning techniques has as a main goal to identify an extract relevant sentences. The main characteristic of the proposed classifier is that uses word sequences as features to represent sentences. The second module consists of a clustering process, the main goal of this is to organize the information extracted by the classifier and find the main sub-themes contained in the collection, this module also deals with the problem of redundant information and the compression levels. The main goal of the proposed approach is to reduce the portability problems of current multi-document summarization systems. Finally, in order to show the usefulness of the proposed scheme, a comparison between our proposal and two other systems was made. The evaluations showed that the proposal is useful for the creation of multi-document summaries of high quality and allows the creation of summaries that are very similar to those created by humans.
dc.descriptionEn la era actual en la que vivimos, donde la información en forma textual disponible en medios electronicos crece de manera exponencial y donde el tiempo es un recurso crítico, se ha vuelto virtualmente imposible para cualquier persona, el navegar y leer toda esta información disponible. Es por esta razón, que surge la importancia de desarrollar métodos que permitan a los usuarios buscar y localizar de una manera rápida, información contenida dentro de grandes colecciones de documentos. La generación automática de resúmenes de múltiples documentos, cumple con estos objetivos al proporcionar a los usuarios un método que permite observar la información importante y/o porciones de información relevante, contenida dentro de una colección de documentos. Actualmente los sistemas de generación de resúmenes de múltiples documentos se encuentran muy poco desarrollados, sin embargo, a la tarea de generar el resumen de un documento se le ha puesto gran interés en los últimos años. La tarea de generar resúmenes de múltiples documentos se diferencia de la tarea de generar el resumen de un documento en: los niveles de compresión que deben ser manejados, la aparición de información redundante y la forma de seleccionar las porciones de información relevantes, juega un papel crítico al momento de crear un resumen de calidad. Si se desea que el sistema de generación de resúmenes sea útil en diferentes dominios temáticos e incluso diferentes idiomas, es necesario contar con técnicas que no hagan uso de costosos recursos lingüísticos. La arquitectura que se propone para solucionar el problema de generar el resumen de múltiples documentos, se compone de dos grandes módulos. El primero, basado en técnicas de aprendizaje automático, que tiene por objetivo hacer la adecuada selección de la información relevante. La característica principal de este módulo es el uso de secuencias de palabras para representar las oraciones de los documentos. El segundo módulo, se compone de un algoritmo de agrupamiento, el cual tiene como objetivo principal organizar la información por sub-temas, eliminar redundancias y controlar los niveles de compresión. El propósito de este enfoque es eliminar los problemas de portabilidad que actualmente presentan este tipo de sistemas. Finalmente, para mostrar lo útil de la arquitectura propuesta, se compara el desempeño de ésta contra el obtenido por otros dos sistemas.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Villatoro-Tello E
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Herramientas de clúster/Cluster tools
dc.subjectinfo:eu-repo/classification/Ligüística computacional/Computational linguistics
dc.subjectinfo:eu-repo/classification/Análisis de texto/Text analysis
dc.subjectinfo:eu-repo/classification/cti/7
dc.subjectinfo:eu-repo/classification/cti/33
dc.subjectinfo:eu-repo/classification/cti/3304
dc.subjectinfo:eu-repo/classification/cti/330405
dc.titleGeneración automática de resúmenes de múltiples documentos
dc.typeTesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución