dc.contributorMANUEL MONTES Y GOMEZ
dc.contributorLUIS VILLASEÑOR PINEDA
dc.creatorJUAN DE DIOS ALVAREZ ROMERO
dc.date2009-01
dc.date.accessioned2023-07-25T16:21:25Z
dc.date.available2023-07-25T16:21:25Z
dc.identifierhttp://inaoe.repositorioinstitucional.mx/jspui/handle/1009/364
dc.identifier.urihttps://repositorioslatinoamericanos.uchile.cl/handle/2250/7805582
dc.descriptionCurrently, there exist a lot of available information on the Web, digital libraries, e-mails and databases. In order to take advantage of all of it, they are necessary more efficient mechanism for information retrieval and organization. In particular, Text Categorization plays a very important roll on the arrangement of documents, since its goal is to assign a class, taken from a list previously defined categories, to each new given document. Evidently, it is expected that as the number of classes increased, the categorization task will be more complicated. As a consequence of this fact, most current classification methods tackle multi-class problems by using a combination of several binary classifiers. In this work, we study the performance that can be achieved by traditional categorization methods (i.e. Naive Bayes y SVM) when a multi-class task is reduced to a single binary problem for each document that needs to be classified. Mainly, this document proposed a new prototype scheme to represent each class in order to do the class reduction, and a new weighting scheme to evaluate the importance of terms to each class. Furthermore, we propose a similarity measure based on the intersection of the weighted terms. The experimental results show that the proposed method outperformed traditional approaches in most of the cases, and that in the rest of them, it obtained the same accuracy.
dc.descriptionLa facilidad con que se producen hoy en día documentos electrónicos, tiene por consecuencia la enorme cantidad de datos existentes en Internet, bibliotecas digitales, correos electrónicos, entre otros. Toda esta información es difícil de manejar si no existen mecanismos de acceso, organización y extracción de la misma. En este sentido, la Clasificación Automática de Textos juega un papel muy importante al ordenar los documentos que se van generando, su objetivo es asignar una clase a un documento nuevo, de una lista de clases previamente definidas. Esta tarea se vuelve más complicada a medida que aumenta el número de clases, es por eso, que muchos de los clasificadores tratan los problemas multi-clase como varios problemas binarios. En el presente trabajo se estudia el desempeño que pueden alcanzar los clasificadores más usados en Clasificación de Textos (i.e. Naive Bayes y SVM), si se reduce el problema inicial multi-clase a un problema donde el clasificador sólo tenga que distinguir entre dos clases, es decir un problema binario. Para la reducción se propone un esquema de prototipo para representar a las clases, que a diferencia de otros esquemas, asigna un peso a cada atributo de acuerdo a la importancia que este tiene para cada clase. Además, se propone una medida de similitud que se base en la intersección pesada de atributos. Los experimentos realizados con este método, arrojan resultados que muestran una mejor exactitud o en el peor de los casos, de igual desempeño frente al método tradicional.
dc.formatapplication/pdf
dc.languagespa
dc.publisherInstituto Nacional de Astrofísica, Óptica y Electrónica
dc.relationcitation:Alvarez-Romero J.D.
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/4.0
dc.subjectinfo:eu-repo/classification/Análisis de texto/Text analysis
dc.subjectinfo:eu-repo/classification/Minería de datos/Data mining
dc.subjectinfo:eu-repo/classification/Categorización de texto/Text categorization
dc.subjectinfo:eu-repo/classification/Clasificación de texto/Text classification
dc.subjectinfo:eu-repo/classification/Ciencias de la Computación/Computer science
dc.subjectinfo:eu-repo/classification/cti/1
dc.subjectinfo:eu-repo/classification/cti/12
dc.subjectinfo:eu-repo/classification/cti/1203
dc.subjectinfo:eu-repo/classification/cti/1203
dc.titleClasificación automática de textos usando reducción de clases basada en prototipos
dc.typeinfo:eu-repo/semantics/masterThesis
dc.typeinfo:eu-repo/semantics/acceptedVersion
dc.audiencestudents
dc.audienceresearchers
dc.audiencegeneralPublic


Este ítem pertenece a la siguiente institución