masterThesis
Seleção local de características em agrupamento hierárquico de documentos
Registro en:
Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo. Seleção local de características em agrupamento hierárquico de documentos. 2009. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2009.
Autor
RIBEIRO, Marcelo Nunes
Institución
Resumen
O agrupamento hierárquico de documentos é utilizado para prover interface de navegação
em coleções de documentos, ajudando na atividade de recuperação de informação. Como
os vetores que representam os documentos possuem uma alta dimensionalidade, a presença
de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de
características em agrupamento de documentos é capaz de melhorar a precisão e o tempo
de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características
já aplicados e aborda a forma como a seleção de características interage com
o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único
subconjunto de características é considerado, ou local, quando cada grupo é descrito por
subconjuntos de características distintas. Por conta da diversidade de visões das características
proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar
grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local
para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma
nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado
de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578
e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a
heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os
termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para
agrupar documentos do resultado de uma consulta ao Google, com etiquetagem e escolha
do número de grupos usando amostragem e o conceito de estabilidade do agrupamento.
Os resultados mostraram que a execução do algoritmo com diferentes parâmetros é capaz
de descobrir diferentes grupos interessantes, o que motiva a pesquisa de uma interface de
acesso aos documentos que combine os resultados de diferentes execuções dos algoritmos.
Por fim, são apresentadas vantagens e limitações do uso do método ZOOM-IN, além de
indicações de trabalhos futuros Conselho Nacional de Desenvolvimento Científico e Tecnológico