Tesis
Efeito do Ranking Sobre Métricas de Categorização Multi Rótulo de Texto
Fecha
2009-11-27Registro en:
MELOTTI, B. Z., Efeito do Ranking Sobre Métricas de Categorização Multi Rótulo de Texto
Autor
DE SOUZA, A. F.
BADUE, Claudine
FRANCA, F. M. G.
Institución
Resumen
Dado um documento para categorização, um sistema de categorização multi-rótulo de texto tipicamente ordena um conjunto de categorias pré-definido, de acordo com a adequação delas ao documento, e seleciona as categorias do topo do ranking como o conjunto de categorias do documento. Empates no ranking eventualmente existentes podem ser tratados de diferentes maneiras, mas, muito embora isso possa afetar as métricas utilizadas para avaliar o desempenho dos categorizadores multi-rótulo de texto, este problema parece ter sido pouco estudado na literatura. Neste trabalho, analisamos o impacto de diferentes tipos de ranking sobre diversas métricas de avaliação de desempenho de categorizadores multi-rótulo de texto, a saber: one-error, coverage, ranking loss, average precision, R-precision, Hamming loss, exact match, precision, recall, e 1 F . Para isso, reformulamos sua definição de modo a considerar empates de acordo com o tipo de ranking empregado. Utilizamo-las então para avaliar o desempenho das técnicas de categorização multi-rótulo de texto k -vizinhos mais próximos ( k NN), k -vizinhos mais próximos multi-rótulo (ML- k NN), rede neural sem peso do tipo VG-RAM (VG-RAM WNN) e VG-RAM com correlação de dados (VG-RAM WNNCOR) na categorização de duas bases multi-rótulo de texto com grande número de categorias (105 e 692 categorias). Descobrimos que, dependendo do tipo de ranking empregado, os resultados de desempenho são significativamente diferentes para muitas das métricas analisadas, o que sugere que o tipo de ranking deve ser claramente indicado na avaliação de técnicas de categorização multi-rótulo de texto.