Apprentissage automatique et extrêmes pour la détection d'anomalies

La détection d'anomalies est tout d'abord une étape utile de pré-traitement des données pour entraîner un algorithme d'apprentissage statistique. C'est aussi une composante importante d'une grande variété d'applications concrètes, allant de la finance, de l'assuran...

Full description

Bibliographic Details
Main Author: Goix, Nicolas
Other Authors: Paris, ENST
Language:en
fr
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016ENST0072/document
id ndltd-theses.fr-2016ENST0072
record_format oai_dc
spelling ndltd-theses.fr-2016ENST00722019-12-22T04:46:32Z Apprentissage automatique et extrêmes pour la détection d'anomalies Machine learning and extremes for anomaly detection Apprentissage automatique Détection d'anomalies Réduction de la dimension Valeurs extrêmes multivariées Concentration Machine learning Anomaly detection Reduction in size Multivariate extreme values Concentration La détection d'anomalies est tout d'abord une étape utile de pré-traitement des données pour entraîner un algorithme d'apprentissage statistique. C'est aussi une composante importante d'une grande variété d'applications concrètes, allant de la finance, de l'assurance à la biologie computationnelle en passant par la santé, les télécommunications ou les sciences environnementales. La détection d'anomalies est aussi de plus en plus utile au monde contemporain, où il est nécessaire de surveiller et de diagnostiquer un nombre croissant de systèmes autonomes. La recherche en détection d'anomalies inclut la création d'algorithmes efficaces accompagnée d'une étude théorique, mais pose aussi la question de l'évaluation de tels algorithmes, particulièrement lorsque l'on ne dispose pas de données labellisées -- comme dans une multitude de contextes industriels. En d'autres termes, l'élaboration du modèle et son étude théorique, mais aussi la sélection du modèle. Dans cette thèse, nous abordons ces deux aspects. Tout d'abord, nous introduisons un critère alternatif au critère masse-volume existant, pour mesurer les performances d'une fonction de score. Puis nous nous intéressons aux régions extrêmes, qui sont d'un intérêt particulier en détection d'anomalies, pour diminuer le taux de fausse alarme. Enfin, nous proposons deux méthodes heuristiques, l'une pour évaluer les performances d'algorithmes de détection d'anomalies en grande dimension, l'autre pour étendre l'usage des forets aléatoires à la classification à une classe. Anomaly detection is not only a useful preprocessing step for training machine learning algorithms. It is also a crucial component of many real-world applications, from various fields like finance, insurance, telecommunication, computational biology, health or environmental sciences. Anomaly detection is also more and more relevant in the modern world, as an increasing number of autonomous systems need to be monitored and diagnosed. Important research areas in anomaly detection include the design of efficient algorithms and their theoretical study but also the evaluation of such algorithms, in particular when no labeled data is available -- as in lots of industrial setups. In other words, model design and study, and model selection. In this thesis, we focus on both of these aspects. We first propose a criterion for measuring the performance of any anomaly detection algorithm. Then we focus on extreme regions, which are of particular interest in anomaly detection, to obtain lower false alarm rates. Eventually, two heuristic methods are proposed, the first one to evaluate anomaly detection algorithms in the case of high dimensional data, the other to extend the use of random forests to the one-class setting. Electronic Thesis or Dissertation Text en fr http://www.theses.fr/2016ENST0072/document Goix, Nicolas 2016-11-28 Paris, ENST Clémençon, Stéphan Sabourin, Anne
collection NDLTD
language en
fr
sources NDLTD
topic Apprentissage automatique
Détection d'anomalies
Réduction de la dimension
Valeurs extrêmes multivariées
Concentration
Machine learning
Anomaly detection
Reduction in size
Multivariate extreme values
Concentration

spellingShingle Apprentissage automatique
Détection d'anomalies
Réduction de la dimension
Valeurs extrêmes multivariées
Concentration
Machine learning
Anomaly detection
Reduction in size
Multivariate extreme values
Concentration

Goix, Nicolas
Apprentissage automatique et extrêmes pour la détection d'anomalies
description La détection d'anomalies est tout d'abord une étape utile de pré-traitement des données pour entraîner un algorithme d'apprentissage statistique. C'est aussi une composante importante d'une grande variété d'applications concrètes, allant de la finance, de l'assurance à la biologie computationnelle en passant par la santé, les télécommunications ou les sciences environnementales. La détection d'anomalies est aussi de plus en plus utile au monde contemporain, où il est nécessaire de surveiller et de diagnostiquer un nombre croissant de systèmes autonomes. La recherche en détection d'anomalies inclut la création d'algorithmes efficaces accompagnée d'une étude théorique, mais pose aussi la question de l'évaluation de tels algorithmes, particulièrement lorsque l'on ne dispose pas de données labellisées -- comme dans une multitude de contextes industriels. En d'autres termes, l'élaboration du modèle et son étude théorique, mais aussi la sélection du modèle. Dans cette thèse, nous abordons ces deux aspects. Tout d'abord, nous introduisons un critère alternatif au critère masse-volume existant, pour mesurer les performances d'une fonction de score. Puis nous nous intéressons aux régions extrêmes, qui sont d'un intérêt particulier en détection d'anomalies, pour diminuer le taux de fausse alarme. Enfin, nous proposons deux méthodes heuristiques, l'une pour évaluer les performances d'algorithmes de détection d'anomalies en grande dimension, l'autre pour étendre l'usage des forets aléatoires à la classification à une classe. === Anomaly detection is not only a useful preprocessing step for training machine learning algorithms. It is also a crucial component of many real-world applications, from various fields like finance, insurance, telecommunication, computational biology, health or environmental sciences. Anomaly detection is also more and more relevant in the modern world, as an increasing number of autonomous systems need to be monitored and diagnosed. Important research areas in anomaly detection include the design of efficient algorithms and their theoretical study but also the evaluation of such algorithms, in particular when no labeled data is available -- as in lots of industrial setups. In other words, model design and study, and model selection. In this thesis, we focus on both of these aspects. We first propose a criterion for measuring the performance of any anomaly detection algorithm. Then we focus on extreme regions, which are of particular interest in anomaly detection, to obtain lower false alarm rates. Eventually, two heuristic methods are proposed, the first one to evaluate anomaly detection algorithms in the case of high dimensional data, the other to extend the use of random forests to the one-class setting.
author2 Paris, ENST
author_facet Paris, ENST
Goix, Nicolas
author Goix, Nicolas
author_sort Goix, Nicolas
title Apprentissage automatique et extrêmes pour la détection d'anomalies
title_short Apprentissage automatique et extrêmes pour la détection d'anomalies
title_full Apprentissage automatique et extrêmes pour la détection d'anomalies
title_fullStr Apprentissage automatique et extrêmes pour la détection d'anomalies
title_full_unstemmed Apprentissage automatique et extrêmes pour la détection d'anomalies
title_sort apprentissage automatique et extrêmes pour la détection d'anomalies
publishDate 2016
url http://www.theses.fr/2016ENST0072/document
work_keys_str_mv AT goixnicolas apprentissageautomatiqueetextremespourladetectiondanomalies
AT goixnicolas machinelearningandextremesforanomalydetection
_version_ 1719305848993349632