Summary: | Submitted by Fernanda Rodrigues de Lima (fernanda.rlima@ufpe.br) on 2018-10-05T21:21:36Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Bruno Almeida Pimentel.pdf: 1823660 bytes, checksum: 2dda6d26c679f00a5e642b456730f356 (MD5) === Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-11-14T20:59:03Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Bruno Almeida Pimentel.pdf: 1823660 bytes, checksum: 2dda6d26c679f00a5e642b456730f356 (MD5) === Made available in DSpace on 2018-11-14T20:59:03Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Bruno Almeida Pimentel.pdf: 1823660 bytes, checksum: 2dda6d26c679f00a5e642b456730f356 (MD5)
Previous issue date: 2017-09-21 === CNPq === A prática de agrupar objetos de acordo com as similaridades e propriedades observadas é uma atividade importante para muitos ramos da ciência. A sua importância deve-se ao fato que a organização dos dados em grupos é uma forma fundamental para entender e aprender sobre eles. Em Biologia, por exemplo, existe a preocupação de dividir os diferentes animais ou plantas em grupos para melhor entendimento das funções biológicas. Em muitas problemas, além de informar a qual grupo um determinado objeto pertence, é necessário entender quão similar este objeto está para todos os grupos da partição devido à imprecisão ou incerteza dos dados, surgindo, assim, o agrupamento difuso. O principal método de agrupamento difuso bastante conhecido é o Fuzzy C-Means (FCM), o qual tem algumas desvantagens tal como considerar que todos os grupos possuem formas esféricas. Outra desvantagem é que não existe a possibilidade de analisar qual variável (ou um sub-conjunto delas) foi mais importante para definir o valor final do grau de pertinência. Este trabalho apresenta diferentes métodos de agrupamento usando a abordagem difusa presentes na literatura atual e introduz métodos de agrupamento difuso onde os graus de pertinência são multivariados. Desta forma, dado um objeto, é possível calcular o grau dele pertencer a um dado grupo segundo uma variável. A partir deste tipo de grau de pertinência multivariado, duas vantagens podem ser apontadas: 1 - capacidade de interpretar a pertinência de cada objeto para um dado grupo segundo cada variável; 2 - obtenção de mais informação dos dados levando a uma maior qualidade de agrupamento. O objetivo deste trabalho é propor duas categorias de métodos: a primeira é baseada no Fuzzy C-Means e a segunda é baseada no Possibilistic Fuzzy C-Means. Além disso, também são propostos índices de interpretação para avaliar a qualidade do agrupamento para grupo e variável a partir da partição difusa obtida por cada método proposto. Com o objetivo de avaliar o desempenho dos métodos, um estudo comparativo em relação ao agrupamento difuso usando o experimento Monte Carlo é realizado. Foram planejados experimentos com dados sintéticos e reais e um índice de validação é usado para avaliar os métodos. Além disso, aplicação com dados biológicos é apresentada mostrando a utilidade dos métodos propostos. Os resultados mostraram que os métodos multivariados são preferíveis quando as variáveis são independentes e possuem variabilidades intra-classe diferentes. === The practice of classifying objects according to the observed similarities and properties is an important activity for many branches of science. Its importance is due to the fact that the organization of data into groups is a fundamental mode to understand and learn about ones. In Biology, for example, there is concern divide the different animals or plants into groups for better understanding of biological functions. In many problems, besides informing the group which a particular object belongs, it is necessary to understand how this object is similar for all groups due to of the vagueness or uncertainty of the data, emerging, so the fuzzy clustering. The primary method of fuzzy clustering is the Fuzzy C-Means (FCM), which has some disadvantages as considering that all groups have spherical shapes. Another disadvantage is that there is not the possibility to analyze which variable (or a subset of them) was more important to set the final value of the degree of membership. This work presents different clustering methods using fuzzy approach present in the current literature and introduces fuzzy clustering methods where the degrees of membership are multivariate. Thus, given an object, it is possible to calculate the degree it belongs to a group according to a given variable. From this type of degree multivariate relevance, two advantages can be pointed out: 1 - ability to interpret the relevance of each object for a given group according to each variable; 2 – getting more information from the data leading to a better quality of clustering. The objective of this work is to propose two types of methods: the first one is based on the Fuzzy C-Means and the second one is based on the Possibilistic Fuzzy C-Means. Moreover, interpretation indices are also proposed for assessing the quality of the clustering according to each cluster and variable from a fuzzy partition obtained by each proposed method. Aiming to evaluate the performance of the methods, a comparative study with respect to fuzzy clustering using the Monte Carlo experiment is carried out. Experiments with synthetic and real data and a validation index is used to evaluate the methods were planned. Furthermore, application with biological data is presented showing the usefulness of the proposed methods. The results showed that multivariate methods are preferable when the variables are independent and have different intra-class variabilities.
|