Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos

A análise de agrupamento de dados é uma tarefa fundamental em mineração de dados e aprendizagem de máquina. Ela tem por objetivo encontrar um conjunto finito de categorias que evidencie as relações entre os objetos (registros, instâncias, observações, exemplos) de um conjunto de dados de interesse....

Full description

Bibliographic Details
Main Author: Anjos, Francisco de Assis Rodrigues dos
Other Authors: Campello, Ricardo José Gabrielli Barreto
Format: Others
Language:pt
Published: Biblioteca Digitais de Teses e Dissertações da USP 2018
Subjects:
Online Access:http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25102018-175959/
id ndltd-usp.br-oai-teses.usp.br-tde-25102018-175959
record_format oai_dc
collection NDLTD
language pt
format Others
sources NDLTD
topic Agrupamento de dados
Cluster analysis
Critérios de avaliação
Evaluation methods
spellingShingle Agrupamento de dados
Cluster analysis
Critérios de avaliação
Evaluation methods
Anjos, Francisco de Assis Rodrigues dos
Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
description A análise de agrupamento de dados é uma tarefa fundamental em mineração de dados e aprendizagem de máquina. Ela tem por objetivo encontrar um conjunto finito de categorias que evidencie as relações entre os objetos (registros, instâncias, observações, exemplos) de um conjunto de dados de interesse. Os algoritmos de agrupamento podem ser divididos em particionais e hierárquicos. Uma das vantagens dos algoritmos hierárquicos é conseguir representar agrupamentos em diferentes níveis de granularidade e ainda serem capazes de produzir partições planas como aquelas produzidas pelos algoritmos particionais, mas para isso é necessário que seja realizado um corte (por exemplo horizontal) sobre o dendrograma ou hierarquia dos grupos. A escolha de como realizar esse corte é um problema clássico que vem sendo investigado há décadas. Mais recentemente, este problema tem ganho especial importância no contexto de algoritmos hierárquicos baseados em densidade, pois somente estratégias mais sofisticadas de corte, em particular cortes não-horizontais denominados cortes locais (ao invés de globais) conseguem selecionar grupos de densidades diferentes para compor a solução final. Entre as principais vantagens dos algoritmos baseados em densidade está sua robustez à interferência de dados anômalos, que são detectados e deixados de fora da partição final, rotulados como ruído, além da capacidade de detectar clusters de formas arbitrárias. O objetivo deste trabalho foi adaptar uma variante da medida da Modularidade, utilizada amplamente na área de detecção de comunidades em redes complexas, para que esta possa ser aplicada ao problema de corte local de hierarquias de agrupamento. Os resultados obtidos mostraram que essa adaptação da modularidade pode ser uma alternativa competitiva para a medida de estabilidade utilizada originalmente pelo algoritmo estado-da-arte em agrupamento de dados baseado em densidade, HDBSCAN*. === Cluster Analysis is a fundamental task in Data Mining and Machine Learning. It aims to find a finite set of categories that evidences the relationships between the objects (records, instances, observations, examples) of a data set of interest. Clustering algorithms can be divided into partitional and hierarchical. One of the advantages of hierarchical algorithms is to be able to represent clusters at different levels of granularity while being able to produce flat partitions like those produced by partitional algorithms. To achieve this, it is necessary to perform a cut (for example horizontal) through the dendrogram or cluster tree. How to perform this cut is a classic problem that has been investigated for decades. More recently, this problem has gained special importance in the context of density-based hierarchical algorithms, since only more sophisticated cutting strategies, in particular nonhorizontal cuts (instead of global ones) are able to select clusters with different densities to compose the final solution. Among the main advantages of density-based algorithms is their robustness to noise and their capability to detect clusters of arbitrary shape. The objective of this work was to adapt a variant of the Q Modularity measure, widely used in the realm of community detection in complex networks, so that it can be applied to the problem of local cuts through cluster hierarchies. The results show that the proposed measure can be a competitive alternative to the stability measure, originally used by the state-of-the-art density-based clustering algorithm HDBSCAN*.
author2 Campello, Ricardo José Gabrielli Barreto
author_facet Campello, Ricardo José Gabrielli Barreto
Anjos, Francisco de Assis Rodrigues dos
author Anjos, Francisco de Assis Rodrigues dos
author_sort Anjos, Francisco de Assis Rodrigues dos
title Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
title_short Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
title_full Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
title_fullStr Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
title_full_unstemmed Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
title_sort seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos
publisher Biblioteca Digitais de Teses e Dissertações da USP
publishDate 2018
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25102018-175959/
work_keys_str_mv AT anjosfranciscodeassisrodriguesdos selecaodegruposapartirdehierarquiasumamodelagembaseadaemgrafos
AT anjosfranciscodeassisrodriguesdos clustersselectionfromhierarchiesagraphbasedmodel
_version_ 1719073507188408320
spelling ndltd-usp.br-oai-teses.usp.br-tde-25102018-1759592019-05-09T21:24:28Z Seleção de grupos a partir de hierarquias: uma modelagem baseada em grafos Clusters selection from hierarchies: a graph-based model Anjos, Francisco de Assis Rodrigues dos Agrupamento de dados Cluster analysis Critérios de avaliação Evaluation methods A análise de agrupamento de dados é uma tarefa fundamental em mineração de dados e aprendizagem de máquina. Ela tem por objetivo encontrar um conjunto finito de categorias que evidencie as relações entre os objetos (registros, instâncias, observações, exemplos) de um conjunto de dados de interesse. Os algoritmos de agrupamento podem ser divididos em particionais e hierárquicos. Uma das vantagens dos algoritmos hierárquicos é conseguir representar agrupamentos em diferentes níveis de granularidade e ainda serem capazes de produzir partições planas como aquelas produzidas pelos algoritmos particionais, mas para isso é necessário que seja realizado um corte (por exemplo horizontal) sobre o dendrograma ou hierarquia dos grupos. A escolha de como realizar esse corte é um problema clássico que vem sendo investigado há décadas. Mais recentemente, este problema tem ganho especial importância no contexto de algoritmos hierárquicos baseados em densidade, pois somente estratégias mais sofisticadas de corte, em particular cortes não-horizontais denominados cortes locais (ao invés de globais) conseguem selecionar grupos de densidades diferentes para compor a solução final. Entre as principais vantagens dos algoritmos baseados em densidade está sua robustez à interferência de dados anômalos, que são detectados e deixados de fora da partição final, rotulados como ruído, além da capacidade de detectar clusters de formas arbitrárias. O objetivo deste trabalho foi adaptar uma variante da medida da Modularidade, utilizada amplamente na área de detecção de comunidades em redes complexas, para que esta possa ser aplicada ao problema de corte local de hierarquias de agrupamento. Os resultados obtidos mostraram que essa adaptação da modularidade pode ser uma alternativa competitiva para a medida de estabilidade utilizada originalmente pelo algoritmo estado-da-arte em agrupamento de dados baseado em densidade, HDBSCAN*. Cluster Analysis is a fundamental task in Data Mining and Machine Learning. It aims to find a finite set of categories that evidences the relationships between the objects (records, instances, observations, examples) of a data set of interest. Clustering algorithms can be divided into partitional and hierarchical. One of the advantages of hierarchical algorithms is to be able to represent clusters at different levels of granularity while being able to produce flat partitions like those produced by partitional algorithms. To achieve this, it is necessary to perform a cut (for example horizontal) through the dendrogram or cluster tree. How to perform this cut is a classic problem that has been investigated for decades. More recently, this problem has gained special importance in the context of density-based hierarchical algorithms, since only more sophisticated cutting strategies, in particular nonhorizontal cuts (instead of global ones) are able to select clusters with different densities to compose the final solution. Among the main advantages of density-based algorithms is their robustness to noise and their capability to detect clusters of arbitrary shape. The objective of this work was to adapt a variant of the Q Modularity measure, widely used in the realm of community detection in complex networks, so that it can be applied to the problem of local cuts through cluster hierarchies. The results show that the proposed measure can be a competitive alternative to the stability measure, originally used by the state-of-the-art density-based clustering algorithm HDBSCAN*. Biblioteca Digitais de Teses e Dissertações da USP Campello, Ricardo José Gabrielli Barreto 2018-06-28 Dissertação de Mestrado application/pdf http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25102018-175959/ pt Liberar o conteúdo para acesso público.