Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées

Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les...

Full description

Bibliographic Details
Main Author: Haddad, Raja
Other Authors: Paris Sciences et Lettres
Language:fr
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016PSLED028/document
id ndltd-theses.fr-2016PSLED028
record_format oai_dc
spelling ndltd-theses.fr-2016PSLED0282019-12-15T03:26:15Z Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées Supervised learning of Symbolic Data and adaptation to Big Data Analyse de Données Symboliques (ADS) Histogrammes Arbres de décision symboliques Big Data Map/Reduce Hadoop Amazon Web Services Symbolic Data Analysis (SDA) Histograms Symbolic decision trees Big Data Map/Reduce Hadoop Amazon Web Services 005.7 Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes. This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2016PSLED028/document Haddad, Raja 2016-11-23 Paris Sciences et Lettres Litwin, Witold
collection NDLTD
language fr
sources NDLTD
topic Analyse de Données Symboliques (ADS)
Histogrammes
Arbres de décision symboliques
Big Data
Map/Reduce
Hadoop
Amazon Web Services
Symbolic Data Analysis (SDA)
Histograms
Symbolic decision trees
Big Data
Map/Reduce
Hadoop
Amazon Web Services
005.7
spellingShingle Analyse de Données Symboliques (ADS)
Histogrammes
Arbres de décision symboliques
Big Data
Map/Reduce
Hadoop
Amazon Web Services
Symbolic Data Analysis (SDA)
Histograms
Symbolic decision trees
Big Data
Map/Reduce
Hadoop
Amazon Web Services
005.7
Haddad, Raja
Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
description Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes. === This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.
author2 Paris Sciences et Lettres
author_facet Paris Sciences et Lettres
Haddad, Raja
author Haddad, Raja
author_sort Haddad, Raja
title Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
title_short Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
title_full Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
title_fullStr Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
title_full_unstemmed Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
title_sort apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées
publishDate 2016
url http://www.theses.fr/2016PSLED028/document
work_keys_str_mv AT haddadraja apprentissagesupervisededonneessymboliquesetladaptationauxdonneesmassivesetdistribuees
AT haddadraja supervisedlearningofsymbolicdataandadaptationtobigdata
_version_ 1719303463067713536