[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION

[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de dados em grupos significativos, otimizando a aderência dos dados observados a um modelo matemático. A recente adoção de clusterização baseada em modelos tem permitido a profissionais e usuários mapearem padrões complexos nos...

Full description

Bibliographic Details
Other Authors: THIBAUT VICTOR GASTON VIDAL
Language:en
Published: MAXWELL 2021
Subjects:
Online Access:https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@2
http://doi.org/10.17771/PUCRio.acad.54595
id ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-54595
record_format oai_dc
spelling ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-545952021-09-10T05:18:25Z[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION [pt] UM FRAMEWORK BASEADO EM MODELO PARA CLUSTERIZAÇÃO SEMISSUPERVISIONADA E DETECÇÃO DE COMUNIDADES [pt] APRENDIZADO DE MAQUINA[pt] MODELOS DE BLOCOS ESTOCASTICOS[pt] AGRUPAMENTO SEMISSUPERVISIONADO[pt] DETECCAO DE COMUNIDADES[pt] AGRUPAMENTO[pt] OTIMIZACAO[pt] MINERACAO DE DADOS[en] MACHINE LEARNING[en] STOCHASTICK BLOCK MODELS[en] SEMISUPERVISED CLUSTERING[en] COMMUNITY DETECTION[en] GROUPING[en] OPTIMIZATION[en] DATA MINING[pt] Em clusterização baseada em modelos, o objetivo é separar amostras de dados em grupos significativos, otimizando a aderência dos dados observados a um modelo matemático. A recente adoção de clusterização baseada em modelos tem permitido a profissionais e usuários mapearem padrões complexos nos dados e explorarem uma ampla variedade de aplicações. Esta tese investiga abordagens orientadas a modelos para detecção de comunidades e para o estudo de clusterização semissupervisionada, adotando uma perspectiva baseada em máxima verossimilhança. Focamos primeiramente na exploração de técnicas de otimização com restrições para apresentar um novo modelo de detecção de comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos que a formulação com restrições revela comunidades estruturalmente diferentes daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário onde anotações imprecisas são fornecidas na forma de relações must-link e cannot-link, e propomos um modelo de clusterização semissupervisionado. Nossa análise experimental mostra que a incorporação de supervisão parcial e de conhecimento prévio melhoram significativamente os agrupamentos. Por fim, examinamos o problema de clusterização semissupervisionada na presença de rótulos de classe não confiáveis. Investigamos o caso em que grupos de anotadores deliberadamente classificam incorretamente as amostras de dados e propomos um modelo para lidar com tais anotações incorretas.[en] In model-based clustering, we aim to separate data samples into meaningful groups by optimizing the fit of some observed data to a mathematical model. The recent adoption of model-based clustering has allowed practitioners to model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model. Our experimental analysis shows that incorporating partial supervision and appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.MAXWELLTHIBAUT VICTOR GASTON VIDAL2021-09-09TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@2http://doi.org/10.17771/PUCRio.acad.54595en
collection NDLTD
language en
sources NDLTD
topic [pt] APRENDIZADO DE MAQUINA
[pt] MODELOS DE BLOCOS ESTOCASTICOS
[pt] AGRUPAMENTO SEMISSUPERVISIONADO
[pt] DETECCAO DE COMUNIDADES
[pt] AGRUPAMENTO
[pt] OTIMIZACAO
[pt] MINERACAO DE DADOS
[en] MACHINE LEARNING
[en] STOCHASTICK BLOCK MODELS
[en] SEMISUPERVISED CLUSTERING
[en] COMMUNITY DETECTION
[en] GROUPING
[en] OPTIMIZATION
[en] DATA MINING
spellingShingle [pt] APRENDIZADO DE MAQUINA
[pt] MODELOS DE BLOCOS ESTOCASTICOS
[pt] AGRUPAMENTO SEMISSUPERVISIONADO
[pt] DETECCAO DE COMUNIDADES
[pt] AGRUPAMENTO
[pt] OTIMIZACAO
[pt] MINERACAO DE DADOS
[en] MACHINE LEARNING
[en] STOCHASTICK BLOCK MODELS
[en] SEMISUPERVISED CLUSTERING
[en] COMMUNITY DETECTION
[en] GROUPING
[en] OPTIMIZATION
[en] DATA MINING
[en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
description [pt] Em clusterização baseada em modelos, o objetivo é separar amostras de dados em grupos significativos, otimizando a aderência dos dados observados a um modelo matemático. A recente adoção de clusterização baseada em modelos tem permitido a profissionais e usuários mapearem padrões complexos nos dados e explorarem uma ampla variedade de aplicações. Esta tese investiga abordagens orientadas a modelos para detecção de comunidades e para o estudo de clusterização semissupervisionada, adotando uma perspectiva baseada em máxima verossimilhança. Focamos primeiramente na exploração de técnicas de otimização com restrições para apresentar um novo modelo de detecção de comunidades por meio de modelos de blocos estocásticos (SBMs). Mostramos que a formulação com restrições revela comunidades estruturalmente diferentes daquelas obtidas com modelos clássicos. Em seguida, estudamos um cenário onde anotações imprecisas são fornecidas na forma de relações must-link e cannot-link, e propomos um modelo de clusterização semissupervisionado. Nossa análise experimental mostra que a incorporação de supervisão parcial e de conhecimento prévio melhoram significativamente os agrupamentos. Por fim, examinamos o problema de clusterização semissupervisionada na presença de rótulos de classe não confiáveis. Investigamos o caso em que grupos de anotadores deliberadamente classificam incorretamente as amostras de dados e propomos um modelo para lidar com tais anotações incorretas. === [en] In model-based clustering, we aim to separate data samples into meaningful groups by optimizing the fit of some observed data to a mathematical model. The recent adoption of model-based clustering has allowed practitioners to model complex patterns in data and explore a wide range of applications. This thesis investigates model-driven approaches for community detection and semisupervised clustering by adopting a maximum-likelihood perspective. We first focus on exploiting constrained optimization techniques to present a new model for community detection with stochastic block models (SBMs). We show that the proposed constrained formulation reveals communities structurally different from those obtained with classical community detection models. We then study a setting where inaccurate annotations are provided as must-link and cannot-link relations, and propose a novel semi-supervised clustering model. Our experimental analysis shows that incorporating partial supervision and appropriately encoding prior user knowledge significantly enhance clustering performance. Finally, we examine the problem of semi-supervised clustering in the presence of unreliable class labels. We focus on the case where groups of untrustworthy annotators deliberately misclassify data samples and propose a model to handle such incorrect statements.
author2 THIBAUT VICTOR GASTON VIDAL
author_facet THIBAUT VICTOR GASTON VIDAL
title [en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
title_short [en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
title_full [en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
title_fullStr [en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
title_full_unstemmed [en] A MODEL-BASED FRAMEWORK FOR SEMI-SUPERVISED CLUSTERING AND COMMUNITY DETECTION
title_sort [en] a model-based framework for semi-supervised clustering and community detection
publisher MAXWELL
publishDate 2021
url https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@1
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54595@2
http://doi.org/10.17771/PUCRio.acad.54595
_version_ 1719479412302282752