info:eu-repo/semantics/masterThesis
Método semisupervisado para clasificación de documentos usando resúmenes automáticos
Autor
EMMANUEL ANGUIANO HERNANDEZ
Resumen
The vast amount of information avaible as text documents demands an ordenation
in order to keep it accesible. Text Categorization is the task of separate document
sets into predened categories in function of their characteristics. Algorithms wich
performs this task are called Classifiers, and there are a wide variety of them with
distinctive features and different levels of performance for almost conditions. A dificulty
with this type of algorithms is that they require large amounts of information
in their training phase to produce good enought classifiers and training documents
use to be manually classfied. Obtaining training documents is expensive because it
requires human experts to perform the classifications.
In order to solve this problem, semisupervised methods have been developed. It
uses just a small set of manually labeled documents in addition with a large pool
of unlabeled documents for training. Due to unlabeled documents may contain noisy
information that interferes whit the training of the classifier, we need a method to
lter the right infomation and remove the noise.
Using automatic summarization to remove noise and keep useful information from
documents, we developed a self-training based method for document categorization
which performs better when compared with traditional scheme without summaries.
Experimental results shows that the method is efective, use few labeled and unlabeled
documents and few iterations.
In this work we show the theoretical background of the proposed algorithm, a
review of related work and the previous experiments. From these experiments we get
the conditions for the nal system. Finally we expose the denitive system and its
results over many different corpora. La gran cantidad de información disponible en forma de documentos de texto demanda
un ordenamiento para ser accesible. La Clasificación de Texto se encarga de
separar conjuntos de documentos en categorías predefinidas según sus características.
Los algoritmos que cumplen esta tarea se denominan Clasificadores y existe una amplia
variedad de ellos con características distintivas y diferentes niveles de desempeño
para condiciones diversas. Una dificultad de este tipo de algoritmos es que requieren
de grandes cantidades de información en su entrenamiento para producir un buen
clasificador. La información que se les proporciona suelen ser documentos clasificados
manualmente. Obtener estos documentos es costoso pues requiere que expertos
humanos asignen la categoría correspondiente en el dominio del problema.
Para solucionar este problema se han desarrollado métodos semisupervisados que
emplean un conjunto pequeño de documentos etiquetados manualmente más un conjunto
numeroso de documentos no etiquetados para entrenarse. Debido a que los
documentos no etiquetados pueden contener información ruidosa que interfiera en el
entrenamiento del clasificador, es necesario un método que permita filtrar la información
adecuada y retirar el ruido.
Utilizando resúmenes automáticos para separar la información relevante de los
documentos, se desarrolló un método para clasificación basado en self-training que
mejora el desempeño del clasificador con respecto al caso base en el que no se emplean
resúmenes. Los resultados experimentales demuestran que el método es efectivo, que
emplea un número pequeño de iteraciones y pocos documentos etiquetados.
En este trabajo se muestra el respaldo teórico del algoritmo propuesto, se hace
una revisión de trabajos relacionados, se exponen los experimentos previos a partir
de los cuales se obtuvo información que determinó las condiciones del sistema final,
así como los resultados de los experimentos sobre diferentes conjuntos de datos con
características diversas.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA