Algoritmos para determinação do número de grupos em estudos de formas planas

Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-11T16:55:56Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Rodrigo_CD.pdf: 1954769 bytes, checksum: 1848fe54bf3979180fcfc4966a04b492 (MD5) === Made available in DSpace...

Full description

Bibliographic Details
Main Author: OLIVEIRA, Rodrigo Alves de
Other Authors: AMARAL, Getúlio José Amorim do
Language:Portuguese
Published: Universidade Federal de Pernambuco 2016
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/17314
Description
Summary:Submitted by Isaac Francisco de Souza Dias (isaac.souzadias@ufpe.br) on 2016-07-11T16:55:56Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Rodrigo_CD.pdf: 1954769 bytes, checksum: 1848fe54bf3979180fcfc4966a04b492 (MD5) === Made available in DSpace on 2016-07-11T16:55:56Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Rodrigo_CD.pdf: 1954769 bytes, checksum: 1848fe54bf3979180fcfc4966a04b492 (MD5) Previous issue date: 2016-02-05 === CAPES === Análise de formas planas é uma área de conhecimento bastante útil e sólida para lidar com estudos de estruturas de objetos e informação geométrica. A fim de descrever objetos bidimensionais é necessário especificar um sistema de coordenadas a qual deve ser invariante sob locação, escala e rotação da configuração tal como as coordenadas de Kendall. E uma versão linearizada do espaço de formas são as coordenadas tangentes, esta pertence ao espaço Euclidiano, portanto, toda literatura de análise multivariada pode ser utilizada. Em diversas ocasiões é necessário agrupar conjuntos de dados de tal maneira que se tenha grupos com características mais homogêneos entre si. Para tanto Amaral et al. (2010a) desenvolveu o algoritmo K-médias para lidar com análise de formas. Devido as desvantagens deste algoritmo, Jayasumana et al. (2013) propôs o algoritmo Kernel K-médias. Estes dois algoritmos dependem da escolha do número de grupos, K. E para o segundo, deve-se estimar o parâmetro de largura de banda. Em situações em que não se conhecem os rótulos dos grupos, a escolha de um valor apropriado para K é difícil. Para resolver esse desafio, medidas de validade tentam determinar como precisamente se retratam os grupos dos dados. No entanto, diversas medidas de validade surgem, e diferentes medidas geralmente produzem resultados discrepantes. Esta dissertação introduz métodos para computar o número de grupos em um determinado conjunto de dados que lidam com a natureza das estruturas planas. Os métodos propostos são baseados nas medidas de validade Silhoueta, Davies-Bouldin e os Resíduos Procrustes. Gerou-se amostras de duas populações da distribuição Bingham complexa a qual possui suporte na esfera unitária; e também amostras de duas populações com espaço nos marcos. Considera-se vários cenários com alta e baixa concentração dos dados. Percebe-se que os índices para coordenadas tangentes encontram corretamente o número de grupos para dados de alta concentração assim como os índices modificados para coordenadas de Kendall. Já em situações com baixa concentração os índices para coordenadas tangentes não funcionam bem, portanto, não identificam o número correto de grupos, ao contrário, os índices com natureza própria de formas planas conseguem estimar o verdadeiro número de grupos para os dados simulados. Os índices mais apropriados são o Procruste Residual e o Davies-Bouldin ajustado pela segunda vez. Análise de dados reais mostra que os índices existentes para coordenadas tangentes e os índices modificados para coordenadas de Kendall estimam o número correto de grupos. === Statistical Shape Analysis is a useful and solid area of knowledge for deal objects structures study and geometrical information. In order to describe two-dimensional objects you must specify a coordinate system which must be filter out translation, rotation and scale information of the setting as the Kendall coordinates. One linearized version of the shape space in the vicinity of a particular point of shape space is the tangent coordinates, that belongs to the Euclidian space, so all multivariate analysis may be used. On several occasions it is necessary to group data sets in such a way that it has groups with more homogeneous characteristics together. Therefore, Amaral et al. (2010a) developed the K-means algorithm to deal with shape analysis. Because of the disadvantages of this algorithm, Jayasumana et al. (2013) proposed Kernel K-means algoritm. These two algorithms depends on the choice of the number of groups, K. And for second, to estimate the bandwidth parameter. In situations in which there is no known labels groups, the choice of an appropriate value for K is difficult. To overcome this challenge, validity measures attempt to determine how accurately the clusters reflect the data. However, numerous validity measures proliferate, and different measures often produce disparate results. This paper introduces methods to compute the number of groups in a given data set that deal with the nature of the planar shapes. The proposed methods are based on the validity of measures Silhoutte, Davies-Bouldin and Procrustes Residuals. Samples were generated from two populations of complex Bingham distribution which is supported on the unit sphere; and also samples of two populatoin with space in the landmarks. Considered some scenarios with high and low concentration of data. It is noticed that the contents are properly coordinated tangent to the number of groups for high-concentration data, as well as modified indices for Kendall coordinates. Already in situations with low concentration indexes to coordinate tangents do not work well, so do not identify the correct number of groups, by contrast, the indexes with the nature of planar shapes can estimate the true number of groups for the simulated data. The most suitable index are Procrustes Residuals and Davies-Bouldin adapted the second time. Real data analysis shows that the existing index for tangent coordinates and indexes modified to Kendall coordinates estimate the correct number of groups.