Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée

Cette thèse présente trois contributions en lien avec l'apprentissage et la détection de dissimilarité statistique multivariée, problématique d'importance primordiale pour de nombreuses méthodes d'apprentissage utilisées dans un nombre croissant de domaines. La première contribution i...

Full description

Bibliographic Details
Main Author: Lhéritier, Alix
Other Authors: Nice
Language:en
Published: 2015
Subjects:
Online Access:http://www.theses.fr/2015NICE4072/document
id ndltd-theses.fr-2015NICE4072
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic Statistique
Théorie de l'information
Divergence de Jensen-Shannon
Analyse de données
Comparaison de données
Nuages de points
Test non-paramétrique d'homogénéité
Taille d'effet
Estimation de la divergence
Estimation de probabilités conditionnelles
Statistics
Information theory
Jensen-Shannon divergence
Data analysis
Data comparison
Point clouds
Nonparametric estimation
Regression
Topological persistence
Conditional probability estimation

spellingShingle Statistique
Théorie de l'information
Divergence de Jensen-Shannon
Analyse de données
Comparaison de données
Nuages de points
Test non-paramétrique d'homogénéité
Taille d'effet
Estimation de la divergence
Estimation de probabilités conditionnelles
Statistics
Information theory
Jensen-Shannon divergence
Data analysis
Data comparison
Point clouds
Nonparametric estimation
Regression
Topological persistence
Conditional probability estimation

Lhéritier, Alix
Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
description Cette thèse présente trois contributions en lien avec l'apprentissage et la détection de dissimilarité statistique multivariée, problématique d'importance primordiale pour de nombreuses méthodes d'apprentissage utilisées dans un nombre croissant de domaines. La première contribution introduit la notion de taille d'effet multivariée non-paramétrique, éclairant la nature de la dissimilarité détectée entre deux jeux de données, en deux étapes. La première consiste en une décomposition d'une mesure de dissimilarité (divergence de Jensen-Shannon) visant à la localiser dans l'espace ambiant, tandis que la seconde génère un résultat facilement interprétable en termes de grappes de points de forte discrépance et en proximité spatiale. La seconde contribution présente le premier test non-paramétrique d'homogénéité séquentiel, traitant les données issues de deux jeux une à une--au lieu de considérer ceux-ci- in extenso. Le test peut ainsi être arrêté dès qu'une évidence suffisamment forte est observée, offrant une flexibilité accrue tout en garantissant un contrôle del'erreur de type I. Sous certaines conditions, nous établissons aussi que le test a asymptotiquement une probabilité d'erreur de type II tendant vers zéro. La troisième contribution consiste en un test de détection de changement séquentiel basé sur deux fenêtres glissantes sur lesquelles un test d'homogénéité est effectué, avec des garanties sur l'erreur de type I. Notre test a une empreinte mémoire contrôlée et, contrairement à des méthodes de l'état de l'art qui ont aussi un contrôle sur l'erreur de type I, a une complexité en temps constante par observation, le rendant adapté aux flux de données. === In this thesis, we study problems related to learning and detecting multivariate statistical dissimilarity, which are of paramount importance for many statistical learning methods nowadays used in an increasingly number of fields. This thesis makes three contributions related to these problems. The first contribution introduces a notion of multivariate nonparametric effect size shedding light on the nature of the dissimilarity detected between two datasets. Our two step method first decomposes a dissimilarity measure (Jensen-Shannon divergence) aiming at localizing the dissimilarity in the data embedding space, and then proceeds by aggregating points of high discrepancy and in spatial proximity into clusters. The second contribution presents the first sequential nonparametric two-sample test. That is, instead of being given two sets of observations of fixed size, observations can be treated one at a time and, when strongly enough evidence has been found, the test can be stopped, yielding a more flexible procedure while keeping guaranteed type I error control. Additionally, under certain conditions, when the number of observations tends to infinity, the test has a vanishing probability of type II error. The third contribution consists in a sequential change detection test based on two sliding windows on which a two-sample test is performed, with type I error guarantees. Our test has controlled memory footprint and, as opposed to state-of-the-art methods that also provide type I error control, has constant time complexity per observation, which makes our test suitable for streaming data.
author2 Nice
author_facet Nice
Lhéritier, Alix
author Lhéritier, Alix
author_sort Lhéritier, Alix
title Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
title_short Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
title_full Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
title_fullStr Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
title_full_unstemmed Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
title_sort méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée
publishDate 2015
url http://www.theses.fr/2015NICE4072/document
work_keys_str_mv AT lheritieralix methodesnonparametriquespourlapprentissageetladetectiondedissimilaritestatistiquemultivariee
AT lheritieralix nonparametricmethodsforlearninganddetectingmultivariatestatisticaldissimilarity
_version_ 1718491339592564736
spelling ndltd-theses.fr-2015NICE40722017-07-06T04:34:59Z Méthodes non-paramétriques pour l'apprentissage et la détection de dissimilarité statistique multivariée Nonparametric methods for learning and detecting multivariate statistical dissimilarity Statistique Théorie de l'information Divergence de Jensen-Shannon Analyse de données Comparaison de données Nuages de points Test non-paramétrique d'homogénéité Taille d'effet Estimation de la divergence Estimation de probabilités conditionnelles Statistics Information theory Jensen-Shannon divergence Data analysis Data comparison Point clouds Nonparametric estimation Regression Topological persistence Conditional probability estimation Cette thèse présente trois contributions en lien avec l'apprentissage et la détection de dissimilarité statistique multivariée, problématique d'importance primordiale pour de nombreuses méthodes d'apprentissage utilisées dans un nombre croissant de domaines. La première contribution introduit la notion de taille d'effet multivariée non-paramétrique, éclairant la nature de la dissimilarité détectée entre deux jeux de données, en deux étapes. La première consiste en une décomposition d'une mesure de dissimilarité (divergence de Jensen-Shannon) visant à la localiser dans l'espace ambiant, tandis que la seconde génère un résultat facilement interprétable en termes de grappes de points de forte discrépance et en proximité spatiale. La seconde contribution présente le premier test non-paramétrique d'homogénéité séquentiel, traitant les données issues de deux jeux une à une--au lieu de considérer ceux-ci- in extenso. Le test peut ainsi être arrêté dès qu'une évidence suffisamment forte est observée, offrant une flexibilité accrue tout en garantissant un contrôle del'erreur de type I. Sous certaines conditions, nous établissons aussi que le test a asymptotiquement une probabilité d'erreur de type II tendant vers zéro. La troisième contribution consiste en un test de détection de changement séquentiel basé sur deux fenêtres glissantes sur lesquelles un test d'homogénéité est effectué, avec des garanties sur l'erreur de type I. Notre test a une empreinte mémoire contrôlée et, contrairement à des méthodes de l'état de l'art qui ont aussi un contrôle sur l'erreur de type I, a une complexité en temps constante par observation, le rendant adapté aux flux de données. In this thesis, we study problems related to learning and detecting multivariate statistical dissimilarity, which are of paramount importance for many statistical learning methods nowadays used in an increasingly number of fields. This thesis makes three contributions related to these problems. The first contribution introduces a notion of multivariate nonparametric effect size shedding light on the nature of the dissimilarity detected between two datasets. Our two step method first decomposes a dissimilarity measure (Jensen-Shannon divergence) aiming at localizing the dissimilarity in the data embedding space, and then proceeds by aggregating points of high discrepancy and in spatial proximity into clusters. The second contribution presents the first sequential nonparametric two-sample test. That is, instead of being given two sets of observations of fixed size, observations can be treated one at a time and, when strongly enough evidence has been found, the test can be stopped, yielding a more flexible procedure while keeping guaranteed type I error control. Additionally, under certain conditions, when the number of observations tends to infinity, the test has a vanishing probability of type II error. The third contribution consists in a sequential change detection test based on two sliding windows on which a two-sample test is performed, with type I error guarantees. Our test has controlled memory footprint and, as opposed to state-of-the-art methods that also provide type I error control, has constant time complexity per observation, which makes our test suitable for streaming data. Electronic Thesis or Dissertation Text en http://www.theses.fr/2015NICE4072/document Lhéritier, Alix 2015-11-23 Nice Cazals, Frédéric