Clasificación automática de textos usando reducción de clases basada en prototipos

JUAN DE DIOS ALVAREZ ROMERO

dc.contributor	MANUEL MONTES Y GOMEZ
dc.contributor	LUIS VILLASEÑOR PINEDA
dc.creator	JUAN DE DIOS ALVAREZ ROMERO
dc.date	2009-01
dc.date.accessioned	2023-07-25T16:21:25Z
dc.date.available	2023-07-25T16:21:25Z
dc.identifier	http://inaoe.repositorioinstitucional.mx/jspui/handle/1009/364
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/7805582
dc.description	Currently, there exist a lot of available information on the Web, digital libraries, e-mails and databases. In order to take advantage of all of it, they are necessary more efficient mechanism for information retrieval and organization. In particular, Text Categorization plays a very important roll on the arrangement of documents, since its goal is to assign a class, taken from a list previously defined categories, to each new given document. Evidently, it is expected that as the number of classes increased, the categorization task will be more complicated. As a consequence of this fact, most current classification methods tackle multi-class problems by using a combination of several binary classifiers. In this work, we study the performance that can be achieved by traditional categorization methods (i.e. Naive Bayes y SVM) when a multi-class task is reduced to a single binary problem for each document that needs to be classified. Mainly, this document proposed a new prototype scheme to represent each class in order to do the class reduction, and a new weighting scheme to evaluate the importance of terms to each class. Furthermore, we propose a similarity measure based on the intersection of the weighted terms. The experimental results show that the proposed method outperformed traditional approaches in most of the cases, and that in the rest of them, it obtained the same accuracy.
dc.description	La facilidad con que se producen hoy en día documentos electrónicos, tiene por consecuencia la enorme cantidad de datos existentes en Internet, bibliotecas digitales, correos electrónicos, entre otros. Toda esta información es difícil de manejar si no existen mecanismos de acceso, organización y extracción de la misma. En este sentido, la Clasificación Automática de Textos juega un papel muy importante al ordenar los documentos que se van generando, su objetivo es asignar una clase a un documento nuevo, de una lista de clases previamente definidas. Esta tarea se vuelve más complicada a medida que aumenta el número de clases, es por eso, que muchos de los clasificadores tratan los problemas multi-clase como varios problemas binarios. En el presente trabajo se estudia el desempeño que pueden alcanzar los clasificadores más usados en Clasificación de Textos (i.e. Naive Bayes y SVM), si se reduce el problema inicial multi-clase a un problema donde el clasificador sólo tenga que distinguir entre dos clases, es decir un problema binario. Para la reducción se propone un esquema de prototipo para representar a las clases, que a diferencia de otros esquemas, asigna un peso a cada atributo de acuerdo a la importancia que este tiene para cada clase. Además, se propone una medida de similitud que se base en la intersección pesada de atributos. Los experimentos realizados con este método, arrojan resultados que muestran una mejor exactitud o en el peor de los casos, de igual desempeño frente al método tradicional.
dc.format	application/pdf
dc.language	spa
dc.publisher	Instituto Nacional de Astrofísica, Óptica y Electrónica
dc.relation	citation:Alvarez-Romero J.D.
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	http://creativecommons.org/licenses/by-nc-nd/4.0
dc.subject	info:eu-repo/classification/Análisis de texto/Text analysis
dc.subject	info:eu-repo/classification/Minería de datos/Data mining
dc.subject	info:eu-repo/classification/Categorización de texto/Text categorization
dc.subject	info:eu-repo/classification/Clasificación de texto/Text classification
dc.subject	info:eu-repo/classification/Ciencias de la Computación/Computer science
dc.subject	info:eu-repo/classification/cti/1
dc.subject	info:eu-repo/classification/cti/12
dc.subject	info:eu-repo/classification/cti/1203
dc.subject	info:eu-repo/classification/cti/1203
dc.title	Clasificación automática de textos usando reducción de clases basada en prototipos
dc.type	info:eu-repo/semantics/masterThesis
dc.type	info:eu-repo/semantics/acceptedVersion
dc.audience	students
dc.audience	researchers
dc.audience	generalPublic

Este ítem pertenece a la siguiente institución

Instituto Nacional de Astrofísica, Óptica y Electrónica (México)

Clasificación automática de textos usando reducción de clases basada en prototipos

Este ítem pertenece a la siguiente institución

Ítems relacionados

Compendio de innovaciones socioambientales en la frontera sur de México ﻿

Caminar el cafetal: perspectivas socioambientales del café y su gente ﻿

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración ﻿

Compendio de innovaciones socioambientales en la frontera sur de México

Caminar el cafetal: perspectivas socioambientales del café y su gente

Material de empaque para biofiltración con base en poliuretano modificado con almidón, metodos para la manufactura del mismo y sistema de biofiltración