dc.contributorMANUEL MONTES Y GOMEZ
dc.contributorHUGO JAIR ESCALANTE BALDERAS
dc.creatorJUAN MANUEL CABRERA JIMENEZ
dc.date2012
dc.date.accessioned2023-07-25T16:22:12Z
dc.date.available2023-07-25T16:22:12Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/742
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/7805959
dc.descriptionThe amount of short documents that are available has increased considerably in recent years due to technological advances. In this context, it has motivated the development of automatic mechanisms to facilitate their access, organization and analysis. Due to the tiny length of documents and the extremely sparse document representations, the direct application of standard text categorization methods is not an effective solution to the problem. This work describes the use of distributional representations of terms (DTRs) for the classification of short texts to overcome, to some extent, the small-length/high-sparsity issues. The DTRs are a way of representing terms, using contextual information, given by their document occurrence and term co-occurrence statistical. We combine the DTRs of the terms appearing in short texts to generate better document representations that can be used with standard machine learning techniques. Thus, a document is not represented by the terms that occur in it, but by a contextual weight vector, indicating the association of terms with documents in the corpus or terms in the vocabulary. The evaluation was performed in three collections, using a variety of classification methods and two different scenarios: i) in the classification of short texts, and ii) in the classification of short texts when there are few labeled documents. The experimental results show that the use of DTRs improves performance of classifiers in short text categorization and also when one has a combination of short texts and a small training set. In particular, the document-occurrence representation outperformed the other representations we evaluated.
dc.descriptionLa cantidad de documentos cortos que está disponible se ha incrementado considerablemente en los últimos años gracias a los avances tecnológicos. En este contexto se ha motivado el desarrollo de mecanismos automáticos que faciliten su acceso, organización y análisis. Debido a la longitud de los documentos y a las representaciones tan dispersas de los documentos, la aplicación directa de los métodos de representación estándar de la categorización de texto no es una solución viable al problema. En este trabajo se describe el uso de las representaciones distribucionales de los términos (DTRs, por sus siglas en inglés) para la clasificación de los textos cortos para superar, en cierta medida, los problemas longitud/dispersión. Las DTRs son una forma de representar términos, por medio de la información contextual dada por la ocurrencia en un documento y la co-ocurrencia estadística entre términos. Combinamos las DTRs de los términos que aparecen en los textos cortos para generar mejores representaciones de documentos que se pueden utilizar con las técnicas de aprendizaje automático. De esta manera, un documento no está representado por los términos que ocurren en él, sino por un vector de pesos contextuales, que indican la asociación de términos con los documentos en el corpus o con términos en el vocabulario. La evaluación se realizó en tres colecciones, utilizando una variedad de métodos de clasificación y en dos distintos escenarios: i) en la clasificación de textos cortos, y ii) en la clasificación de textos cortos y conjunto de datos reducido. Los resultados experimentales demostraron que el uso de las DTRs es beneficioso para mejorar el rendimiento de los clasificadores en la categorización de textos cortos y también cuando se tiene una combinación de textos cortos y un conjunto de entrenamiento reducido. En particular, la representación ocurrencia-documento superó a las otras representaciones evaluadas.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Cabrera-Jimenez J.M.
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Edición de texto/Text editing
dc.subjectinfo:eu-repo/classification/Clasificación/Classification
dc.subjectinfo:eu-repo/classification/Procesamiento de lenguaje natural/Natural language processing
dc.subjectinfo:eu-repo/classification/Representación del término distributivo/Distributional term representation
dc.subjectinfo:eu-repo/classification/cti/1
dc.subjectinfo:eu-repo/classification/cti/12
dc.subjectinfo:eu-repo/classification/cti/1203
dc.subjectinfo:eu-repo/classification/cti/1203
dc.titleClasificación de textos cortos usando representaciones distribucionales de los términos
dc.typeinfo:eu-repo/semantics/masterThesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución