Tesis
Clasificación de textos utilizando información inherente al conjunto a clasificar
Autor
ADRIANA GABRIELA RAMIREZ DE LA ROSA
Institución
Resumen
The continued growth in the number of digital documents available on the Web has motivated the development of automatic mechanisms that facilitate access, organization and analysis. In an effort to organize that information so that you can access it efficiently, have developed methods for text classification. Text classification task is the assignment of documents within a set of predefined categories or classes. Over the years have proposed different algorithms and methods for classifying texts, particularly machine learning approaches. Within this approach, to carry out the construction of classifiers is necessary to have a set of sample documents. Unfortunately, in many classification scenarios, the sample documents are very few or worse, do not exist; in addition, to generate them is a very expensive task. In order to tackle the problem of insufficient and lack of labeled documents, to train classifiers with good performance, in this thesis is proposed an alternative text classification method based on a consensus classification approach, that means, classifying a document using information himself as both information of set of documents to classify (unlabeled documents), in particular is considered the classification of closer documents to it, the goal is give support to the assignment class process. The proposed method was evaluated on three classification scenarios with particular characteristics: i) when there are few labeled documents, ii) in a multi-lingual classification approach, using labeled documents in a different language of documents to classify, and iii) in a multi-domain classification approach, where labeled documents of similar domain to the set of documents to classify are used. The experimental results showed that the method proposed in this thesis is an alternative of text classification that also is flexible to scenarios of classification with insufficiency and lack of labeled documents. El constante crecimiento de la cantidad de documentos digitales disponibles en la
Web han motivado el desarrollo de mecanismos automáticos que faciliten su acceso,
organización y análisis. En un esfuerzo por organizar esa información de tal forma
que se pueda acceder eficientemente a ella, se han desarrollado los métodos de clasificación de textos. La clasificación de textos es una tarea que consiste en la asignación
de documentos dentro de un conjunto de categorías o clases predefinidas. A lo largo
de los años se han propuesto diferentes algoritmos y métodos para clasificar textos;
particularmente enfoques de aprendizaje automático. Dentro de este enfoque, para
llevar a cabo la construcción de clasificadores es necesario contar con un número de
documentos de ejemplo. Desafortunadamente, en muchos escenarios de clasificación
los documentos de ejemplos son escasos o peor aún, no existen; además, generarlos
es una tarea demasiado costosa. Con el _n de atacar el problema de insuficiencia e
inexistencia de documentos etiquetados para entrenar clasificadores con buen desempeño no, en esta tesis se propone un método alternativo para clasificar textos que se basa
en un enfoque de clasificación consensuada, esto es, clasificar un documento considerando
información tanto de _el mismo como información presente en el conjunto de
documentos a clasificar (no etiquetado). En particular, se considera la clasificación
de los documentos más similares al documento a clasificar con el objetivo de dar soporte
al proceso de asignación de clase. El método fue evaluado en tres escenarios
de clasificación con características particulares: i) cuando existen pocos documentos
etiquetados, ii) en un enfoque de clasificación multi-lenguaje, utilizando documentos
etiquetados de un idioma distinto a los documentos que se desean clasificar, y iii) en
un enfoque de clasificación multi-dominio, en el cual se utilizan documentos etiquetados
de un dominio similar al conjunto de documentos a clasificar. Los resultados
experimentales demostraron que el método propuesto en esta tesis es una alternativa
de clasificación de documento que además, es flexible a diferentes escenarios de
clasificación; en especial, cuando el conjunto de documentos a clasificar es pequeño o
cuando se hace uso de documentos etiquetados en otros lenguajes.
Materias
Ítems relacionados
Mostrando ítems relacionados por Título, autor o materia.
-
Compendio de innovaciones socioambientales en la frontera sur de México
Adriana Quiroga -
Caminar el cafetal: perspectivas socioambientales del café y su gente
Eduardo Bello Baltazar; Lorena Soto_Pinto; Graciela Huerta_Palacios; Jaime Gomez -
Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración
OLGA BRIGIDA GUTIERREZ ACOSTA; VLADIMIR ALONSO ESCOBAR BARRIOS; SONIA LORENA ARRIAGA GARCIA