Apprentissage supervisé à partir des multiples annotateurs incertains

En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement de...

Full description

Bibliographic Details
Main Author: Wolley, Chirine
Other Authors: Aix-Marseille
Language:fr
Published: 2014
Subjects:
004
Online Access:http://www.theses.fr/2014AIXM4070/document
id ndltd-theses.fr-2014AIXM4070
record_format oai_dc
spelling ndltd-theses.fr-2014AIXM40702017-07-01T04:41:51Z Apprentissage supervisé à partir des multiples annotateurs incertains Supervised Learning from Multiple Uncertain Annotators Apprentissage supervisé Incertitude Multiple annotateurs Expertise Qualité des données Analyse bayésienne Algorithme EM Supervised learning Uncertainty Multiple annotators Properties of labelers Data quality Bayesian analysis EM algorithm 004 En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature. In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2014AIXM4070/document Wolley, Chirine 2014-12-01 Aix-Marseille Quafafou, Mohamed
collection NDLTD
language fr
sources NDLTD
topic Apprentissage supervisé
Incertitude
Multiple annotateurs
Expertise
Qualité des données
Analyse bayésienne
Algorithme EM
Supervised learning
Uncertainty
Multiple annotators
Properties of labelers
Data quality
Bayesian analysis
EM algorithm
004
spellingShingle Apprentissage supervisé
Incertitude
Multiple annotateurs
Expertise
Qualité des données
Analyse bayésienne
Algorithme EM
Supervised learning
Uncertainty
Multiple annotators
Properties of labelers
Data quality
Bayesian analysis
EM algorithm
004
Wolley, Chirine
Apprentissage supervisé à partir des multiples annotateurs incertains
description En apprentissage supervisé, obtenir les réels labels pour un ensemble de données peut être très fastidieux et long. Aujourd'hui, les récentes avancées d'Internet ont permis le développement de services d'annotations en ligne, faisant appel au crowdsourcing pour collecter facilement des labels. Néanmoins, le principal inconvénient de ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d'expertise très hétérogènes. De telles données ne sont alors pas forcément fiables. Par conséquent, la gestion de l'incertitude des annotateurs est un élément clé pour l'apprentissage à partir de multiples annotateurs non experts. Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l'incertitude des annotateurs et la qualité des données durant la phase d'apprentissage. Trois modèles sont proposés: IGNORE permet de classer de nouvelles instances tout en évaluant les annotateurs en terme de performance d'annotation qui dépend de leur incertitude. X-IGNORE intègre la qualité des données en plus de l'incertitude des juges. En effet, X-IGNORE suppose que la performance des annotateurs dépend non seulement de leur incertitude mais aussi de la qualité des données qu'ils annotent. Enfin, ExpertS répond au problème de sélection d'annotateurs durant l'apprentissage. ExpertS élimine les annotateurs les moins performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts) lors de l'étape d'apprentissage. De nombreuses expérimentations effectuées sur des données synthétiques et réelles montrent la performance et la stabilité de nos modèles par rapport à différents algorithmes de la littérature. === In supervised learning tasks, obtaining the ground truth label for each instance of the training dataset can be difficult, time-consuming and/or expensive. With the advent of infrastructures such as the Internet, an increasing number of web services propose crowdsourcing as a way to collect a large enough set of labels from internet users. The use of these services provides an exceptional facility to collect labels from anonymous annotators, and thus, it considerably simplifies the process of building labels datasets. Nonetheless, the main drawback of crowdsourcing services is their lack of control over the annotators and their inability to verify and control the accuracy of the labels and the level of expertise for each labeler. Hence, managing the annotators' uncertainty is a clue for learning from imperfect annotations. This thesis provides three algorithms when learning from multiple uncertain annotators. IGNORE generates a classifier that predict the label of a new instance and evaluate the performance of each annotator according to their level of uncertainty. X-Ignore, considers that the performance of the annotators both depends on their uncertainty and on the quality of the initial dataset to be annotated. Finally, ExpertS deals with the problem of annotators' selection when generating the classifier. It identifies experts annotators, and learn the classifier based only on their labels. We conducted in this thesis a large set of experiments in order to evaluate our models, both using experimental and real world medical data. The results prove the performance and accuracy of our models compared to previous state of the art solutions in this context.
author2 Aix-Marseille
author_facet Aix-Marseille
Wolley, Chirine
author Wolley, Chirine
author_sort Wolley, Chirine
title Apprentissage supervisé à partir des multiples annotateurs incertains
title_short Apprentissage supervisé à partir des multiples annotateurs incertains
title_full Apprentissage supervisé à partir des multiples annotateurs incertains
title_fullStr Apprentissage supervisé à partir des multiples annotateurs incertains
title_full_unstemmed Apprentissage supervisé à partir des multiples annotateurs incertains
title_sort apprentissage supervisé à partir des multiples annotateurs incertains
publishDate 2014
url http://www.theses.fr/2014AIXM4070/document
work_keys_str_mv AT wolleychirine apprentissagesuperviseapartirdesmultiplesannotateursincertains
AT wolleychirine supervisedlearningfrommultipleuncertainannotators
_version_ 1718488934838697984