Avaliação da qualidade de agrupamentos em grafos

=== The process of discovering groups of similar, connected vertices in a graph, known as graph clustering, has interesting applications in several scenarios, such as biology, marketing and recommendation systems. A major challenge concerning this problem is the evaluation of cluster quality, which...

Full description

Bibliographic Details
Main Author: Helio Marcos Paz de Almeida
Other Authors: Dorgival Olavo Guedes Neto
Format: Others
Language:English
Published: Universidade Federal de Minas Gerais 2012
Online Access:http://hdl.handle.net/1843/ESBF-935L6S
Description
Summary:=== The process of discovering groups of similar, connected vertices in a graph, known as graph clustering, has interesting applications in several scenarios, such as biology, marketing and recommendation systems. A major challenge concerning this problem is the evaluation of cluster quality, which is used to measure the effectiveness of clustering algorithms. Many quality metrics for graph cluster evaluation exist, but there is no consensus on which ones are best suited for this task, and most authors in the literature just assume that a chosen metric is good enough, with little or no interest in evaluating the strength of such claims. To better understand the effectiveness of the most popular cluster quality metrics presented in the literature, we studied them indifferent scenarios. We discovered that they present strong biases and structural inconsistencies that cause the quality of their results to be, at least, doubtful. Our studies demonstrated that, while in general those popular quality metrics do a good job evaluating the external sparsity between clusters, they do poorly when evaluating their internal density, ignoring essential information, such as the cluster's vertex count, or having its internal density ignored in practice because of computational costs. With that in mind, we proposed a new method for evaluating the internal density of a given cluster, one that not only uses more complete information to evaluate that density, but also takes into consideration structural characteristics of the original graph. With this proposed method, the internal density of a cluster is evaluated in terms of the expected density of similar clusters in that same graph. That is in contrast to the traditional quality metrics available, where clusters from different graphs are compared by the same standards, a behavior that penalizes naturally sparser graphs. Then, we proposed a new quality metric for graph clusters, combining our metric for internal quality evaluation and Conductance, a popularly used metric for external sparsity evaluation. This way, the proposed metric evaluates the two main structural characteristics expected from well formed clusters. Our experiments showed that the proposed metric is capable of correctly penalizing badly formed clusters that were highly ranked by other quality metrics from the literature, while still awarding high scores for good ones. === O processo de descoberta de grupos de vértices similares e conectados em um grafo, conhecido como agrupamento em grafos ou graph clustering, possui aplicações interes-santes em diversos cenários, tais como biologia, marketing e sistemas de recomendação. Um dos grandes desaos da área de agrupamentos em grafos é a avaliação da qualidade dos agrupamentos, que é utilizada para medir a efetividade de algoritmos de agrupa-mento. Existem muitas métricas de qualidade para avaliação de agrupamentos em grafos, mas não há consenso sobre qual delas é melhor adequada para essa tarefa, e a maior parte dos autores na literatura simplesmente assume que uma métrica escolhida é boa o suciente, com pouco ou nenhum interesse em avaliar a força dessas armações. Para melhor compreender a efetividade das métricas de qualidade de agrupamen-tos mais populares apresentadas na literatura, estudamo-las em diferentes cenários. Descobrimos que essas métricas apresentam fortes tendenciosidades e inconsistências estruturais que fazem com que a qualidade de seus resultados seja, no mínimo, duvi-dosa. Nossos estudos demonstraram que, apesar dessas métricas de qualidade avaliarem corretamente a esparsidade de conexões entre grupos, elas não avaliam adequadamente a densidade interna dos mesmos, ignorando informações essenciais, como a número de vértices pertencentes a cada grupo, ou mesmo ignorando, na prática, métodos de avaliação de densidade interna devido ao seu alto custo computacional. Tendo isso em mente, propusemos um novo método de avaliação da densidade interna de um dado grupo, um que não apenas utiliza informações mais completas na sua avaliação de densidade, mas que também leva em consideração as características estruturais do grafo de origem. Com esse método, a densidade interna de um grupo é avaliada em termos da densidade esperada de grupos similares oriundos do mesmo grafo. Isso difere das outras métricas disponíveis, onde grupos de diferentes grafos são comparados a partir dos mesmos parâmetros, um comportamento que penaliza redes que sejam naturalmente mais esparsas. Então, propusemos uma nova métrica de qualidade para agrupamentos em grafos, combinando nossa métrica de avaliação da qualidade interna e Condutância, uma popular métrica de avaliação de esparsidade externa. Dessa forma, a métrica proposta avalia as duas principais características estruturais esperadas de grupos bem formados. Nossos experimentos mostraram que a a métrica proposta é capaz de penalizar corretamente grupos mal formados que seriam bem avaliados por outras métricas de qualidade presentes na literatura, ao mesmo tempo que concedem boas pontuações a grupos bem formados.