Machine Learning Strategies for Large-scale Taxonomies

À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse...

Full description

Bibliographic Details
Main Author:	Babbar, Rohit
Other Authors:	Grenoble
Language:	en
Published:	2014
Subjects:	Apprentissage automatique Classification à large échelle Classification hiérarchique Automatic Learning Large-scale Classification Hierarchical classification 004
Online Access:	http://www.theses.fr/2014GRENM064/document

id	ndltd-theses.fr-2014GRENM064
record_format	oai_dc
spelling	ndltd-theses.fr-2014GRENM0642018-06-22T04:57:20Z Machine Learning Strategies for Large-scale Taxonomies Strategies d'apprentissage pour la classification dans les grandes taxonomies Apprentissage automatique Classification à large échelle Classification hiérarchique Automatic Learning Large-scale Classification Hierarchical classification 004 À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test. In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup. Electronic Thesis or Dissertation Text en http://www.theses.fr/2014GRENM064/document Babbar, Rohit 2014-10-17 Grenoble Gaussier, Éric Amini, Massih-Reza
collection	NDLTD
language	en
sources	NDLTD
topic	Apprentissage automatique Classification à large échelle Classification hiérarchique Automatic Learning Large-scale Classification Hierarchical classification 004
spellingShingle	Apprentissage automatique Classification à large échelle Classification hiérarchique Automatic Learning Large-scale Classification Hierarchical classification 004 Babbar, Rohit Machine Learning Strategies for Large-scale Taxonomies
description	À l'ère de Big Data, le développement de modèles d'apprentissage machine efficaces et évolutifs opérant sur des Tera-Octets de données est une nécessité. Dans cette thèse, nous étudions un cadre d'apprentissage machine pour la classification hiérarchique à large échelle. Cette analyse comprend l'étude des défis comme la complexité d'entraînement des modèles ainsi que leur temps de prédiction. Dans la première partie de la thèse, nous étudions la distribution des lois de puissance sous-jacente à la création des taxonomies à grande échelle. Cette étude permet de dériver des bornes sur la complexité spatiale des classifieurs hiérarchiques. L'exploitation de ce résultat permet alors le développement des modèles efficaces pour les classes distribuées selon une loi de puissance. Nous proposons également une méthode efficace pour la sélection de modèles pour des classifieurs multi-classes de type séparateurs à vaste marge ou de la régression logistique. Dans une deuxième partie, nous étudions le problème de la classification hiérarichique contre la classification plate d'un point de vue théorique. Nous dérivons une borne sur l'erreur de généralisation qui permet de définir les cas où la classification hiérarchique serait plus avantageux que la classification plate. Nous exploitons en outre les bornes développées pour proposer deux méthodes permettant adapter une taxonomie donnée de catégories à une taxonomies de sorties qui permet d'atteindre une meilleure performance de test. === In the era of Big Data, we need efficient and scalable machine learning algorithms which can perform automatic classification of Tera-Bytes of data. In this thesis, we study the machine learning challenges for classification in large-scale taxonomies. These challenges include computational complexity of training and prediction and the performance on unseen data. In the first part of the thesis, we study the underlying power-law distribution in large-scale taxonomies. This analysis then motivates the derivation of bounds on space complexity of hierarchical classifiers. Exploiting the study of this distribution further, we then design classification scheme which leads to better accuracy on large-scale power-law distributed categories. We also propose an efficient method for model-selection when training multi-class version of classifiers such as Support Vector Machine and Logistic Regression. Finally, we address another key model selection problem in large scale classification concerning the choice between flat versus hierarchical classification from a learning theoretic aspect. The presented generalization error analysis provides an explanation to empirical findings in many recent studies in large-scale hierarchical classification. We further exploit the developed bounds to propose two methods for adapting the given taxonomy of categories to output taxonomies which yield better test accuracy when used in a top-down setup.
author2	Grenoble
author_facet	Grenoble Babbar, Rohit
author	Babbar, Rohit
author_sort	Babbar, Rohit
title	Machine Learning Strategies for Large-scale Taxonomies
title_short	Machine Learning Strategies for Large-scale Taxonomies
title_full	Machine Learning Strategies for Large-scale Taxonomies
title_fullStr	Machine Learning Strategies for Large-scale Taxonomies
title_full_unstemmed	Machine Learning Strategies for Large-scale Taxonomies
title_sort	machine learning strategies for large-scale taxonomies
publishDate	2014
url	http://www.theses.fr/2014GRENM064/document
work_keys_str_mv	AT babbarrohit machinelearningstrategiesforlargescaletaxonomies AT babbarrohit strategiesdapprentissagepourlaclassificationdanslesgrandestaxonomies
_version_	1718702902960193536

Machine Learning Strategies for Large-scale Taxonomies

Similar Items