Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering

Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet...

Full description

Bibliographic Details
Main Author: Morvan, Anne
Other Authors: Paris Sciences et Lettres
Language:en
Published: 2018
Subjects:
Online Access:http://www.theses.fr/2018PSLED033/document
id ndltd-theses.fr-2018PSLED033
record_format oai_dc
spelling ndltd-theses.fr-2018PSLED0332019-12-15T03:26:05Z Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering Contributions à l'apprentissage non supervisé à partir de flux de données massives en grande dimension : structuration, hashing et clustering Apprentissage non supervisé Recherche des plus proches voisins Flux Clustering Approximation Réduction de dimension Hachage Résumés minimalistes Unsupervised learning Nearest neighbors search Streaming Clustering Approximation Dimensionality reduction Hashing Sketching 005.7 Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées. This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed. Electronic Thesis or Dissertation Text en http://www.theses.fr/2018PSLED033/document Morvan, Anne 2018-11-12 Paris Sciences et Lettres Atif, Jamal
collection NDLTD
language en
sources NDLTD
topic Apprentissage non supervisé
Recherche des plus proches voisins
Flux
Clustering
Approximation
Réduction de dimension
Hachage
Résumés minimalistes
Unsupervised learning
Nearest neighbors search
Streaming
Clustering
Approximation
Dimensionality reduction
Hashing
Sketching
005.7
spellingShingle Apprentissage non supervisé
Recherche des plus proches voisins
Flux
Clustering
Approximation
Réduction de dimension
Hachage
Résumés minimalistes
Unsupervised learning
Nearest neighbors search
Streaming
Clustering
Approximation
Dimensionality reduction
Hashing
Sketching
005.7
Morvan, Anne
Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
description Cette thèse étudie deux tâches fondamentales d'apprentissage non supervisé: la recherche des plus proches voisins et le clustering de données massives en grande dimension pour respecter d'importantes contraintes de temps et d'espace.Tout d'abord, un nouveau cadre théorique permet de réduire le coût spatial et d'augmenter le débit de traitement du Cross-polytope LSH pour la recherche du plus proche voisin presque sans aucune perte de précision.Ensuite, une méthode est conçue pour apprendre en une seule passe sur des données en grande dimension des codes compacts binaires. En plus de garanties théoriques, la qualité des sketches obtenus est mesurée dans le cadre de la recherche approximative des plus proches voisins. Puis, un algorithme de clustering sans paramètre et efficace en terme de coût de stockage est développé en s'appuyant sur l'extraction d'un arbre couvrant minimum approché du graphe de dissimilarité compressé auquel des coupes bien choisies sont effectuées. === This thesis focuses on how to perform efficiently unsupervised machine learning such as the fundamentally linked nearest neighbor search and clustering task, under time and space constraints for high-dimensional datasets. First, a new theoretical framework reduces the space cost and increases the rate of flow of data-independent Cross-polytope LSH for the approximative nearest neighbor search with almost no loss of accuracy.Second, a novel streaming data-dependent method is designed to learn compact binary codes from high-dimensional data points in only one pass. Besides some theoretical guarantees, the quality of the obtained embeddings are accessed on the approximate nearest neighbors search task.Finally, a space-efficient parameter-free clustering algorithm is conceived, based on the recovery of an approximate Minimum Spanning Tree of the sketched data dissimilarity graph on which suitable cuts are performed.
author2 Paris Sciences et Lettres
author_facet Paris Sciences et Lettres
Morvan, Anne
author Morvan, Anne
author_sort Morvan, Anne
title Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
title_short Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
title_full Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
title_fullStr Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
title_full_unstemmed Contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
title_sort contributions to unsupervised learning from massive high-dimensional data streams : structuring, hashing and clustering
publishDate 2018
url http://www.theses.fr/2018PSLED033/document
work_keys_str_mv AT morvananne contributionstounsupervisedlearningfrommassivehighdimensionaldatastreamsstructuringhashingandclustering
AT morvananne contributionsalapprentissagenonsuperviseapartirdefluxdedonneesmassivesengrandedimensionstructurationhashingetclustering
_version_ 1719303539469058048