Dissertação
Incorporação de múltiplos representantes auxiliares em processos de detecção de agrupamentos semi-supervisionados
Registro en:
Autor
Silva, Walter José da
Institución
Resumen
The incorporation of semi-supervision in the cluster detection process has proved especially
useful when one wants to get a high consistency between the data partitioning
and the knowledge the user has about the data domain. In recent years, several strategies
for semi-supervised clustering have been proposed. The approaches adopted by these
strategies aim at guiding the process of cluster detection by using constraints with the
following purposes: to interfere with the allocation of instances to the most appropriate
cluster at each iteration of the algorithm; or to modify the objective function employed.
This dissertation presents a novel approach for incorporating semi-supervision in the wellknown
k-means algorithm. This semi-supervised clustering method employs constraint
information in the definition of multiple assistant representatives for the centroids used
at each iteration of k-means and generating new types of constraints acting on prototype
level. A refinement process is designed to reduce the number of assistant representatives
considered for each centroid without losing the clustering quality. The experimental results
show the potential of the proposed approach for dealing with clustering composed
by clusters of different shapes, sizes and densities. Fundação de Amparo a Pesquisa do Estado de Minas Gerais Mestre em Ciência da Computação A incorporação de semi-supervisão no processo de detecção de agrupamento de dados
tem sido especialmente útil quando se deseja obter uma alta consistência entre o
particionamento dos dados e o conhecimento do usuário sobre a verdadeira estrutura
dos dados. Nos últimos tempos, várias estratégias para detecção de agrupamentos semisupervisionado
de dados têm sido propostas. As abordagens adotadas por essas estratégias
têm como objetivo guiar o processo de detecção de agrupamentos por meio do uso de restrições
com os seguintes propósitos: interferindo na atribuição das instâncias ao grupo mais
apropriado a cada iteração do algoritmo; ou modificando a função objetivo utilizada. Esta
dissertação apresenta uma nova abordagem para incorporar semi-supervisão ao amplamente
conhecido algoritmo k-means. Esse método de agrupamento semi-supervisionado
emprega as informações de restrições na definição de múltiplos representantes auxiliares
para os centróides utilizados a cada iteração do k-means e na geração de novos tipos de
restrições que agem em nível de protótipo. Um processo de refinamento é desenvolvido
para reduzir o número de representantes auxiliares considerados a cada centróide, sem
perder a qualidade do agrupamento. Os resultados experimentais mostram o potencial
da abordagem proposta para lidar com agrupamentos de diferentes formas, tamanhos e
densidades.