Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie

La biologie est un domaine scientifique qui reste encore très incomplet au sens où la somme de connaissances qu'il nous reste à découvrir est non négligeable. Il est fréquent que les techniques de laboratoire traditionnelles soient inadaptées à la complexité du problème traité. Une raison possi...

Full description

Bibliographic Details
Main Author: Mordelet, Fantine
Language:ENG
Published: École Nationale Supérieure des Mines de Paris 2010
Subjects:
Online Access:http://pastel.archives-ouvertes.fr/pastel-00566401
http://pastel.archives-ouvertes.fr/docs/00/56/64/01/PDF/MORDELETfantine.pdf
id ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-00566401
record_format oai_dc
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
apprentissage statistique
exemples positifs et indéterminés
réseaux biologiques
gènes de maladies
réseau de régulation transcriptionnelle
spellingShingle [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
apprentissage statistique
exemples positifs et indéterminés
réseaux biologiques
gènes de maladies
réseau de régulation transcriptionnelle
Mordelet, Fantine
Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
description La biologie est un domaine scientifique qui reste encore très incomplet au sens où la somme de connaissances qu'il nous reste à découvrir est non négligeable. Il est fréquent que les techniques de laboratoire traditionnelles soient inadaptées à la complexité du problème traité. Une raison possible à cela est que leur mise en œuvre requiert souvent beaucoup de temps et/ou de moyens financiers. Par ailleurs, certaines d'entre elles produisent des résultats peu fiables ou à trop faible débit. C'est pourquoi ces techniques peinent parfois à apporter des réponses aux nombreuses questions biologiques non résolues. En parallèle, l'évolution des biotechnologies a permis de produire massivement des données biologiques. Les expériences biologiques à haut débit permettent à présent de caractériser des cellules à l'échelle du génome et sont porteuses d'espoir pour la compréhension de phénomènes biologiques complexes. Ces deux faits combinés ont induit un besoin croissant de mathématiciens et de statisticiens en biologie. La tâche des bioinformaticiens est non seulement d'analyzer efficacement les masses de données produites par les expériences à haut débit et d'en extraire une information fiable mais aussi d'élaborer des modèles de systèmes biologiques menant à des prédictions utiles. L'inférence de réseaux de régulation et la recherche de gènes de maladie sont deux exemples parmi d'autres, de problèmes où une expertise bioinformatique peut s'avérer nécessaire. L'inférence de réseaux de régulation consiste à identifier les relations de régulation transcriptionnelle entre des gènes régulateurs appelés facteurs de transcription et des gènes cibles. Par ailleurs, la recherche de gènes de maladie consiste à déterminer les gènes dont les mutations mènent au développement d'une maladie génétiquement transmise. Dans les deux cas, les biologistes sont confrontés à des listes de milliers de gènes à tester. Le défi du bioinformaticien est donc de produire une liste de priorité où les interactions ou gènes candidats sont rangés par ordre de pertinence au problème traité, en vue d'une validation expérimentale. Les deux problèmes mentionnés plus haut partagent une caractéristique commune : ce sont tous les deux des problèmes de priorisation pour lesquels un petit nombre d'exemples positifs est disponible (des interactions connues ou gènes de maladie déjà identifiés) mais pour lesquels on ne dispose pas de données négatives. En effet, les bases de données biologiques ne reportent que rarement les paires de gènes non interactives. De même, il est difficile voire impossible de déterminer à coup sûr qu'un gène n'est pas impliqué dans le développement d'une maladie. Par ailleurs, des nombreux exemples indéterminés existent qui sont par exemple des gènes dont on ne sait pas si ils interagissent avec un facteur de transcription ou encore des gènes dont on ne sait pas s'ils sont causaux pour une maladie. Le problème de l'apprentissage à partir d'exemples positifs et indéterminés (PU learning en anglais) a été étudié en soi dans le domaine de l'apprentissage automatique (machine learning). L'objet de cette thèse est l'étude de méthodes de PU learning et leur application à des problèmes biologiques. Le premier chapitre présente le bagging SVM, un nouvel algorithme de PU learning et évalue ses performances et propriétés sur un jeu de données standard. L'idée principale de cet algorithme est d'exploiter au moyen d'une procédure voisine du bagging, une caractéristique intrinsèque d'un problème de PU learning qui est que l'ensemble des exemples indéterminés contient des positifs cachés. Le bagging SVM atteint des performances comparables à l'état de l'art tout en faisant preuve de bonnes propriétés en termes de rapidité et d'échelle par rapport au nombre d'exemples. Le deuxième chapitre est consacré à SIRENE, une nouvelle méthode supervisée pour l'inférence de réseaux de régulation. SIRENE est un algorithme conceptuellement simple qui donne de bons résultats en comparaison à des méthodes existantes pour l'inférence de réseaux. Enfin, le troisième chapitre décrit ProDiGe, un algorithme pour la priorisation de gènes de maladie à partir d'exemples positifs et indéterminés. Cet algorithme, issu du bagging SVM, peut gérer la recherche de gènes de maladies à l'échelle du génome et permet d'intégrer plusieurs sources de données. Sa capacité à retrouver correctement des gènes de maladie a été démontrée sur un jeu de données réel.
author Mordelet, Fantine
author_facet Mordelet, Fantine
author_sort Mordelet, Fantine
title Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
title_short Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
title_full Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
title_fullStr Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
title_full_unstemmed Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
title_sort méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie
publisher École Nationale Supérieure des Mines de Paris
publishDate 2010
url http://pastel.archives-ouvertes.fr/pastel-00566401
http://pastel.archives-ouvertes.fr/docs/00/56/64/01/PDF/MORDELETfantine.pdf
work_keys_str_mv AT mordeletfantine methodesdapprentissagestatistiqueapartirdexemplespositifsetindeterminesenbiologie
_version_ 1716396492895289345
spelling ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-005664012013-01-07T17:41:37Z http://pastel.archives-ouvertes.fr/pastel-00566401 2010ENMP0058 http://pastel.archives-ouvertes.fr/docs/00/56/64/01/PDF/MORDELETfantine.pdf Méthodes d'apprentissage statistique à partir d'exemples positifs et indéterminés en biologie Mordelet, Fantine [INFO:INFO_BI] Computer Science/Bioinformatics [SDV:BIBS] Life Sciences/Quantitative Methods apprentissage statistique exemples positifs et indéterminés réseaux biologiques gènes de maladies réseau de régulation transcriptionnelle La biologie est un domaine scientifique qui reste encore très incomplet au sens où la somme de connaissances qu'il nous reste à découvrir est non négligeable. Il est fréquent que les techniques de laboratoire traditionnelles soient inadaptées à la complexité du problème traité. Une raison possible à cela est que leur mise en œuvre requiert souvent beaucoup de temps et/ou de moyens financiers. Par ailleurs, certaines d'entre elles produisent des résultats peu fiables ou à trop faible débit. C'est pourquoi ces techniques peinent parfois à apporter des réponses aux nombreuses questions biologiques non résolues. En parallèle, l'évolution des biotechnologies a permis de produire massivement des données biologiques. Les expériences biologiques à haut débit permettent à présent de caractériser des cellules à l'échelle du génome et sont porteuses d'espoir pour la compréhension de phénomènes biologiques complexes. Ces deux faits combinés ont induit un besoin croissant de mathématiciens et de statisticiens en biologie. La tâche des bioinformaticiens est non seulement d'analyzer efficacement les masses de données produites par les expériences à haut débit et d'en extraire une information fiable mais aussi d'élaborer des modèles de systèmes biologiques menant à des prédictions utiles. L'inférence de réseaux de régulation et la recherche de gènes de maladie sont deux exemples parmi d'autres, de problèmes où une expertise bioinformatique peut s'avérer nécessaire. L'inférence de réseaux de régulation consiste à identifier les relations de régulation transcriptionnelle entre des gènes régulateurs appelés facteurs de transcription et des gènes cibles. Par ailleurs, la recherche de gènes de maladie consiste à déterminer les gènes dont les mutations mènent au développement d'une maladie génétiquement transmise. Dans les deux cas, les biologistes sont confrontés à des listes de milliers de gènes à tester. Le défi du bioinformaticien est donc de produire une liste de priorité où les interactions ou gènes candidats sont rangés par ordre de pertinence au problème traité, en vue d'une validation expérimentale. Les deux problèmes mentionnés plus haut partagent une caractéristique commune : ce sont tous les deux des problèmes de priorisation pour lesquels un petit nombre d'exemples positifs est disponible (des interactions connues ou gènes de maladie déjà identifiés) mais pour lesquels on ne dispose pas de données négatives. En effet, les bases de données biologiques ne reportent que rarement les paires de gènes non interactives. De même, il est difficile voire impossible de déterminer à coup sûr qu'un gène n'est pas impliqué dans le développement d'une maladie. Par ailleurs, des nombreux exemples indéterminés existent qui sont par exemple des gènes dont on ne sait pas si ils interagissent avec un facteur de transcription ou encore des gènes dont on ne sait pas s'ils sont causaux pour une maladie. Le problème de l'apprentissage à partir d'exemples positifs et indéterminés (PU learning en anglais) a été étudié en soi dans le domaine de l'apprentissage automatique (machine learning). L'objet de cette thèse est l'étude de méthodes de PU learning et leur application à des problèmes biologiques. Le premier chapitre présente le bagging SVM, un nouvel algorithme de PU learning et évalue ses performances et propriétés sur un jeu de données standard. L'idée principale de cet algorithme est d'exploiter au moyen d'une procédure voisine du bagging, une caractéristique intrinsèque d'un problème de PU learning qui est que l'ensemble des exemples indéterminés contient des positifs cachés. Le bagging SVM atteint des performances comparables à l'état de l'art tout en faisant preuve de bonnes propriétés en termes de rapidité et d'échelle par rapport au nombre d'exemples. Le deuxième chapitre est consacré à SIRENE, une nouvelle méthode supervisée pour l'inférence de réseaux de régulation. SIRENE est un algorithme conceptuellement simple qui donne de bons résultats en comparaison à des méthodes existantes pour l'inférence de réseaux. Enfin, le troisième chapitre décrit ProDiGe, un algorithme pour la priorisation de gènes de maladie à partir d'exemples positifs et indéterminés. Cet algorithme, issu du bagging SVM, peut gérer la recherche de gènes de maladies à l'échelle du génome et permet d'intégrer plusieurs sources de données. Sa capacité à retrouver correctement des gènes de maladie a été démontrée sur un jeu de données réel. 2010-12-15 ENG PhD thesis École Nationale Supérieure des Mines de Paris