Clasificación de textos utilizando información inherente al conjunto a clasificar

ADRIANA GABRIELA RAMIREZ DE LA ROSA

Tesis

Registro en:

http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/575

http://repositorioslatinoamericanos.uchile.cl/handle/2250/2258714

Autor

ADRIANA GABRIELA RAMIREZ DE LA ROSA

Institución

Conacyt (México)

Resumen

The continued growth in the number of digital documents available on the Web has motivated the development of automatic mechanisms that facilitate access, organization and analysis. In an effort to organize that information so that you can access it efficiently, have developed methods for text classification. Text classification task is the assignment of documents within a set of predefined categories or classes. Over the years have proposed different algorithms and methods for classifying texts, particularly machine learning approaches. Within this approach, to carry out the construction of classifiers is necessary to have a set of sample documents. Unfortunately, in many classification scenarios, the sample documents are very few or worse, do not exist; in addition, to generate them is a very expensive task. In order to tackle the problem of insufficient and lack of labeled documents, to train classifiers with good performance, in this thesis is proposed an alternative text classification method based on a consensus classification approach, that means, classifying a document using information himself as both information of set of documents to classify (unlabeled documents), in particular is considered the classification of closer documents to it, the goal is give support to the assignment class process. The proposed method was evaluated on three classification scenarios with particular characteristics: i) when there are few labeled documents, ii) in a multi-lingual classification approach, using labeled documents in a different language of documents to classify, and iii) in a multi-domain classification approach, where labeled documents of similar domain to the set of documents to classify are used. The experimental results showed that the method proposed in this thesis is an alternative of text classification that also is flexible to scenarios of classification with insufficiency and lack of labeled documents.

El constante crecimiento de la cantidad de documentos digitales disponibles en la Web han motivado el desarrollo de mecanismos automáticos que faciliten su acceso, organización y análisis. En un esfuerzo por organizar esa información de tal forma que se pueda acceder eficientemente a ella, se han desarrollado los métodos de clasificación de textos. La clasificación de textos es una tarea que consiste en la asignación de documentos dentro de un conjunto de categorías o clases predefinidas. A lo largo de los años se han propuesto diferentes algoritmos y métodos para clasificar textos; particularmente enfoques de aprendizaje automático. Dentro de este enfoque, para llevar a cabo la construcción de clasificadores es necesario contar con un número de documentos de ejemplo. Desafortunadamente, en muchos escenarios de clasificación los documentos de ejemplos son escasos o peor aún, no existen; además, generarlos es una tarea demasiado costosa. Con el _n de atacar el problema de insuficiencia e inexistencia de documentos etiquetados para entrenar clasificadores con buen desempeño no, en esta tesis se propone un método alternativo para clasificar textos que se basa en un enfoque de clasificación consensuada, esto es, clasificar un documento considerando información tanto de _el mismo como información presente en el conjunto de documentos a clasificar (no etiquetado). En particular, se considera la clasificación de los documentos más similares al documento a clasificar con el objetivo de dar soporte al proceso de asignación de clase. El método fue evaluado en tres escenarios de clasificación con características particulares: i) cuando existen pocos documentos etiquetados, ii) en un enfoque de clasificación multi-lenguaje, utilizando documentos etiquetados de un idioma distinto a los documentos que se desean clasificar, y iii) en un enfoque de clasificación multi-dominio, en el cual se utilizan documentos etiquetados de un dominio similar al conjunto de documentos a clasificar. Los resultados experimentales demostraron que el método propuesto en esta tesis es una alternativa de clasificación de documento que además, es flexible a diferentes escenarios de clasificación; en especial, cuando el conjunto de documentos a clasificar es pequeño o cuando se hace uso de documentos etiquetados en otros lenguajes.

Materias

info:eu-repo/classification/Clasificación/Classification

info:eu-repo/classification/Análisis de texto/Text analysis

info:eu-repo/classification/Sistemas de información/Information systems

info:eu-repo/classification/cti/1

info:eu-repo/classification/cti/12

info:eu-repo/classification/cti/1203

Mostrar el registro completo del ítem