Apprentissage statistique avec le processus ponctuel déterminantal

Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires et donc moins susc...

Full description

Bibliographic Details
Main Author: Vicente, Sergio
Other Authors: Murua, Alejandro
Format: Others
Language:fra
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/1866/25249
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-25249
record_format oai_dc
collection NDLTD
language fra
format Others
sources NDLTD
topic Algorithme de Lanczos
Approximation de Laplace
Décomposition en éléments propres
Exclusion mutuelle probabiliste
Méthodes à noyaux
Méthode des k plus proches voisins
Modèle graphique déterminantal
Prédiction a posteriori
Regroupement de données
Data grouping
Determinantal graphical model
Eigendecomposition
k-nearest neighbors method
Kernel-based methods
Lanczos algorithm
Laplace’s approximation
Posterior prediction
Probabilistic mutual exclusion
Mathematics / Mathématiques (UMI : 0405)
spellingShingle Algorithme de Lanczos
Approximation de Laplace
Décomposition en éléments propres
Exclusion mutuelle probabiliste
Méthodes à noyaux
Méthode des k plus proches voisins
Modèle graphique déterminantal
Prédiction a posteriori
Regroupement de données
Data grouping
Determinantal graphical model
Eigendecomposition
k-nearest neighbors method
Kernel-based methods
Lanczos algorithm
Laplace’s approximation
Posterior prediction
Probabilistic mutual exclusion
Mathematics / Mathématiques (UMI : 0405)
Vicente, Sergio
Apprentissage statistique avec le processus ponctuel déterminantal
description Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le premier article aborde le partitionnement de données effectué par un algorithme répété un grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie du premier article aux données ayant un grand nombre d’observations. Ce cas impose un effort computationnel additionnel, étant donné que la sélection de points par le processus ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui, dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points. Le troisième article présente le problème de sélection de variables en régression linéaire et logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov, en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de variables est meilleur que celui que l’on obtient avec une loi a priori uniforme. === This thesis presents the determinantal point process, a probabilistic model that captures repulsion between points of a certain space. This repulsion is encompassed by a similarity matrix, the kernel matrix, which selects which points are more similar and then less likely to appear in the same subset. This point process gives more weight to subsets characterized by a larger diversity of its elements, which is not the case with the traditional uniform random sampling. Diversity has become a key concept in domains such as medicine, sociology, forensic sciences and behavioral sciences. The determinantal point process is considered a promising alternative to traditional sampling methods, since it takes into account the diversity of selected elements. It is already actively used in machine learning as a subset selection method. Its application in statistics is illustrated with three papers. The first paper presents the consensus clustering, which consists in running a clustering algorithm on the same data, a large number of times. To sample the initials points of the algorithm, we propose the determinantal point process as a sampling method instead of a uniform random sampling and show that the former option produces better clustering results. The second paper extends the methodology developed in the first paper to large-data. Such datasets impose a computational burden since sampling with the determinantal point process is based on the spectral decomposition of the large kernel matrix. We introduce two methods to deal with this issue. These methods also produce better clustering results than consensus clustering based on a uniform sampling of initial points. The third paper addresses the problem of variable selection for the linear model and the logistic regression, when the number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal point process as the prior distribution for the model space selects a better final model than the model selected by a uniform prior on the model space.
author2 Murua, Alejandro
author_facet Murua, Alejandro
Vicente, Sergio
author Vicente, Sergio
author_sort Vicente, Sergio
title Apprentissage statistique avec le processus ponctuel déterminantal
title_short Apprentissage statistique avec le processus ponctuel déterminantal
title_full Apprentissage statistique avec le processus ponctuel déterminantal
title_fullStr Apprentissage statistique avec le processus ponctuel déterminantal
title_full_unstemmed Apprentissage statistique avec le processus ponctuel déterminantal
title_sort apprentissage statistique avec le processus ponctuel déterminantal
publishDate 2021
url http://hdl.handle.net/1866/25249
work_keys_str_mv AT vicentesergio apprentissagestatistiqueavecleprocessusponctueldeterminantal
_version_ 1719409907740966912
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-252492021-06-09T17:19:10Z Apprentissage statistique avec le processus ponctuel déterminantal Vicente, Sergio Murua, Alejandro Algorithme de Lanczos Approximation de Laplace Décomposition en éléments propres Exclusion mutuelle probabiliste Méthodes à noyaux Méthode des k plus proches voisins Modèle graphique déterminantal Prédiction a posteriori Regroupement de données Data grouping Determinantal graphical model Eigendecomposition k-nearest neighbors method Kernel-based methods Lanczos algorithm Laplace’s approximation Posterior prediction Probabilistic mutual exclusion Mathematics / Mathématiques (UMI : 0405) Cette thèse aborde le processus ponctuel déterminantal, un modèle probabiliste qui capture la répulsion entre les points d’un certain espace. Celle-ci est déterminée par une matrice de similarité, la matrice noyau du processus, qui spécifie quels points sont les plus similaires et donc moins susceptibles de figurer dans un même sous-ensemble. Contrairement à la sélection aléatoire uniforme, ce processus ponctuel privilégie les sous-ensembles qui contiennent des points diversifiés et hétérogènes. La notion de diversité acquiert une importante grandissante au sein de sciences comme la médecine, la sociologie, les sciences forensiques et les sciences comportementales. Le processus ponctuel déterminantal offre donc une alternative aux traditionnelles méthodes d’échantillonnage en tenant compte de la diversité des éléments choisis. Actuellement, il est déjà très utilisé en apprentissage automatique comme modèle de sélection de sous-ensembles. Son application en statistique est illustrée par trois articles. Le premier article aborde le partitionnement de données effectué par un algorithme répété un grand nombre de fois sur les mêmes données, le partitionnement par consensus. On montre qu’en utilisant le processus ponctuel déterminantal pour sélectionner les points initiaux de l’algorithme, la partition de données finale a une qualité supérieure à celle que l’on obtient en sélectionnant les points de façon uniforme. Le deuxième article étend la méthodologie du premier article aux données ayant un grand nombre d’observations. Ce cas impose un effort computationnel additionnel, étant donné que la sélection de points par le processus ponctuel déterminantal passe par la décomposition spectrale de la matrice de similarité qui, dans ce cas-ci, est de grande taille. On présente deux approches différentes pour résoudre ce problème. On montre que les résultats obtenus par ces deux approches sont meilleurs que ceux obtenus avec un partitionnement de données basé sur une sélection uniforme de points. Le troisième article présente le problème de sélection de variables en régression linéaire et logistique face à un nombre élevé de covariables par une approche bayésienne. La sélection de variables est faite en recourant aux méthodes de Monte Carlo par chaînes de Markov, en utilisant l’algorithme de Metropolis-Hastings. On montre qu’en choisissant le processus ponctuel déterminantal comme loi a priori de l’espace des modèles, le sous-ensemble final de variables est meilleur que celui que l’on obtient avec une loi a priori uniforme. This thesis presents the determinantal point process, a probabilistic model that captures repulsion between points of a certain space. This repulsion is encompassed by a similarity matrix, the kernel matrix, which selects which points are more similar and then less likely to appear in the same subset. This point process gives more weight to subsets characterized by a larger diversity of its elements, which is not the case with the traditional uniform random sampling. Diversity has become a key concept in domains such as medicine, sociology, forensic sciences and behavioral sciences. The determinantal point process is considered a promising alternative to traditional sampling methods, since it takes into account the diversity of selected elements. It is already actively used in machine learning as a subset selection method. Its application in statistics is illustrated with three papers. The first paper presents the consensus clustering, which consists in running a clustering algorithm on the same data, a large number of times. To sample the initials points of the algorithm, we propose the determinantal point process as a sampling method instead of a uniform random sampling and show that the former option produces better clustering results. The second paper extends the methodology developed in the first paper to large-data. Such datasets impose a computational burden since sampling with the determinantal point process is based on the spectral decomposition of the large kernel matrix. We introduce two methods to deal with this issue. These methods also produce better clustering results than consensus clustering based on a uniform sampling of initial points. The third paper addresses the problem of variable selection for the linear model and the logistic regression, when the number of predictors is large. A Bayesian approach is adopted, using Markov Chain Monte Carlo methods with Metropolis-Hasting algorithm. We show that setting the determinantal point process as the prior distribution for the model space selects a better final model than the model selected by a uniform prior on the model space. 2021-06-07T16:59:40Z NO_RESTRICTION 2021-06-07T16:59:40Z 2021-03-24 2021-02 thesis thèse http://hdl.handle.net/1866/25249 fra application/pdf