masterThesis
Algoritmos para determinação do número de grupos em estudos de formas planas
Registro en:
Autor
OLIVEIRA, Rodrigo Alves de
Institución
Resumen
Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com
estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais
é necessário especificar um sistema de coordenadas a qual deve ser invariante sob
locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão
linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano,
portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões
é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características
mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias
para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al.
(2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do
número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em
situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado
para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente
se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem,
e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz
métodos para computar o número de grupos em um determinado conjunto de dados que lidam
com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de
validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações
da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também
amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta
e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram
corretamente o número de grupos para dados de alta concentração assim como os índices
modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices
para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de
grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o
verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste
Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra
que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas
de Kendall estimam o número correto de grupos. CAPES Statistical Shape Analysis is a useful and solid area of knowledge for deal objects structures
study and geometrical information. In order to describe two-dimensional objects you must specify
a coordinate system which must be filter out translation, rotation and scale information of
the setting as the Kendall coordinates. One linearized version of the shape space in the vicinity
of a particular point of shape space is the tangent coordinates, that belongs to the Euclidian
space, so all multivariate analysis may be used. On several occasions it is necessary to group
data sets in such a way that it has groups with more homogeneous characteristics together.
Therefore, Amaral et al. (2010a) developed the K-means algorithm to deal with shape analysis.
Because of the disadvantages of this algorithm, Jayasumana et al. (2013) proposed Kernel
K-means algoritm. These two algorithms depends on the choice of the number of groups, K.
And for second, to estimate the bandwidth parameter. In situations in which there is no known
labels groups, the choice of an appropriate value for K is difficult. To overcome this challenge,
validity measures attempt to determine how accurately the clusters reflect the data. However,
numerous validity measures proliferate, and different measures often produce disparate results.
This paper introduces methods to compute the number of groups in a given data set that deal
with the nature of the planar shapes. The proposed methods are based on the validity of measures
Silhoutte, Davies-Bouldin and Procrustes Residuals. Samples were generated from two
populations of complex Bingham distribution which is supported on the unit sphere; and also
samples of two populatoin with space in the landmarks. Considered some scenarios with high
and low concentration of data. It is noticed that the contents are properly coordinated tangent
to the number of groups for high-concentration data, as well as modified indices for Kendall
coordinates. Already in situations with low concentration indexes to coordinate tangents do not
work well, so do not identify the correct number of groups, by contrast, the indexes with the
nature of planar shapes can estimate the true number of groups for the simulated data. The most
suitable index are Procrustes Residuals and Davies-Bouldin adapted the second time. Real data
analysis shows that the existing index for tangent coordinates and indexes modified to Kendall
coordinates estimate the correct number of groups.