Tesis
CARACTERIZACIÓN DE ORACIONES CLAVE DE RESÚMENES MEDIANTE MEDIDAS DE CALIDAD DE AGRUPACIÓN INTERNA
Autor
Hernández Castañeda, Néstor
Institución
Resumen
El gran aumento de información digital compartida a través de internet y de otros medios ha hecho necesaria la creación de sistemas que permitan la generación de resúmenes automáticos con el objetivo de presentar a los usuarios la información más relevante del texto o el documento, lo que permite reducir los tiempos de búsqueda y obtención de la información.
Los resúmenes se pueden generar por diversos métodos, pero de forma general se clasifican en dos métodos. Los métodos abstractivos y los métodos extractivos. Estos últimos son los que vamos a utilizar para el propósito de este trabajo.
Existen técnicas de generación de resúmenes extractivos que difieren en la forma de generar el resumen. Algunas de estas técnicas se basan en la selección de frases similares al título del documento, otras por la posición de frases u oraciones en el texto o asignando pesos a las oraciones. Generalmente, estas técnicas de generación de resúmenes son dependientes del idioma o del dominio. Por esta razón se han desarrollado técnicas de generación de resúmenes independientes del idioma y del dominio, estas técnicas también difieren en la forma de generar el resumen. En este trabajo se va estudiar la generación de resúmenes extractivos por agrupamiento ya que existe gran incertidumbre sobre la relación que existe entre la calidad de las agrupaciones generadas y la calidad del resumen obtenido. Debido a que estos resúmenes son generados por agrupamiento obtienen características propias de los grupos, como pueden ser: compactación, separación, distribución y densidad. Por lo que algunos algoritmos de agrupación son incapaces de evaluar características propias de los grupos. Por esta razón en este trabajo se utilizan medidas de calidad interna de agrupación, las cuales mantienen independencia del algoritmo empleado. A través de estas medidas se evalúa la relación que existe entre la calidad de los grupos y la calidad de los resúmenes obtenidos. Además, en este trabajo se hace un estudio para saber cómo afectan las características de los grupos en la calidad de la agrupación. A través de los experimentos realizados se determina que dos medidas de calidad interna de agrupación pueden evaluar correctamente la relación entre la calidad de los grupos generados con la calidad de los resúmenes utilizados, así como las características de los grupos que son: separación, compactación, ruido, densidad y distribución. Estas medidas son el índice Silhouette y el índice Davies Bouldin.