Evaluation of different text representation techniques and distance metrics using KNN for documents classification

Calvo-Valverde,Luis Alexander; Mena-Arias,José Andrés

dc.creator	Calvo-Valverde,Luis Alexander
dc.creator	Mena-Arias,José Andrés
dc.date	2020-03-01
dc.date.accessioned	2023-09-25T14:31:02Z
dc.date.available	2023-09-25T14:31:02Z
dc.identifier	http://www.scielo.sa.cr/scielo.php?script=sci_arttext&pid=S0379-39822020000100064
dc.identifier.uri	https://repositorioslatinoamericanos.uchile.cl/handle/2250/8821406
dc.description	Resumen Actualmente, los datos textuales constituyen una parte fundamental de las bases de datos de todo el mundo y uno de los mayores desafíos ha sido la extracción de información útil a partir de conjuntos grandes de documentos de texto. La literatura existente sobre métodos para resolver este problema es muy extensa, sin embargo, los métodos estadísticos (que utilizan métricas de similitud sobre vectores de palabras) han mostrado resultados muy favorables en el campo de la minería de texto durante los últimos 25 años. Adicionalmente, otros modelos han surgido como una prometedora alternativa para lograr reducción dimensional e incorporación de la semántica en la clasificación de documentos, tal como el modelado de temas. Este proyecto se enfoca en la evaluación de técnicas de representación y medidas de similitud de texto (Coseno, Jaccard y Kullback-Leibler) usando el algoritmo de Vecinos más Cercanos (KNN por sus siglas en inglés), con el fin de medir la efectividad del modelado de temas para reducción dimensional al clasificar texto. Los resultados muestran que la versión más tradicional del vector de palabras y la similitud Jaccard superaron al resto de las combinaciones en la mayoría de los casos de uso. Sin embargo, el análisis estadístico mostró que no hubo una diferencia significativa entre la exactitud obtenida al usar representaciones generadas por la Asignación de Dirichlet Latente (técnica de modelado de temas más conocida como LDA por sus siglas en inglés), y la obtenida usando técnicas tradicionales de clasificación de texto. LDA logró abstraer miles de palabras en menos de 60 temas para el primer conjunto de pruebas. Experimentos adicionales sugieren que el modelado de temas puede llegar a lograr un mejor rendimiento al ser usado para clasificar textos cortos y al incrementar el número de temas permitidos al momento de generar el modelo.
dc.format	text/html
dc.language	es
dc.publisher	Instituto Tecnológico de Costa Rica
dc.relation	10.18845/tm.v33i1.5022
dc.rights	info:eu-repo/semantics/openAccess
dc.source	Revista Tecnología en Marcha v.33 n.1 2020
dc.subject	Similitud de texto
dc.subject	clasificación de texto
dc.subject	KNN
dc.subject	modelado de temas
dc.title	Evaluation of different text representation techniques and distance metrics using KNN for documents classification
dc.type	info:eu-repo/semantics/article

Este ítem pertenece a la siguiente institución

SciELO (Costa Rica)