Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques

Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l...

Full description

Bibliographic Details
Main Author: Le Morvan, Marine
Other Authors: Paris Sciences et Lettres
Language:en
Published: 2018
Subjects:
Online Access:http://www.theses.fr/2018PSLEM041/document
id ndltd-theses.fr-2018PSLEM041
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic Mutations
Réseaux de gènes
Normalisation par les quantiles
Polymorphismes mononucléotidiques (SNPs)
LASSO avec interactions
Mutations
Gene networks
Quantile normalisation
Single Nucleotide Polymorphisms (SNPs)
LASSO with pairwise interactions
570.15
spellingShingle Mutations
Réseaux de gènes
Normalisation par les quantiles
Polymorphismes mononucléotidiques (SNPs)
LASSO avec interactions
Mutations
Gene networks
Quantile normalisation
Single Nucleotide Polymorphisms (SNPs)
LASSO with pairwise interactions
570.15
Le Morvan, Marine
Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
description Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l'émergence de la médecine de précision, dont le but est d'intégrer aux dossiers médicaux conventionnels les spécificités génétiques d'un individu, afin de mieux adapter les traitements et les stratégies de prévention. La traduction des variations et des altérations de l'ADN en prédictions phénotypiques constitue toutefois un problème difficile. Les séquenceurs ou puces à ADN mesurent plus de variables qu'il n'y a d'échantillons, posant ainsi des problèmes statistiques. Les données brutes sont aussi sujettes aux biais techniques et au bruit inhérent à ces technologies. Enfin, les vastes réseaux d'interactions à l'échelle des protéines obscurcissent l'impact des variations génétiques sur le comportement de la cellule, et incitent au développement de modèles prédictifs capables de capturer un certain degré de complexité.Cette thèse présente de nouvelles contributions méthodologiques pour répondre à ces défis.Tout d'abord, nous définissons une nouvelle représentation des profils de mutations tumorales, qui exploite leur position dans les réseaux d'interaction protéine-protéine. Pour certains cancers, cette représentation permet d'améliorer les prédictions de survie à partir des données de mutations, et de stratifier les cohortes de patients en sous-groupes informatifs. Nous présentons ensuite une nouvelle méthode d'apprentissage permettant de gérer conjointement la normalisation des données et l'estimation d'un modèle linéaire. Nos expériences montrent que cette méthode améliore les performances prédictives par rapport à une gestion séquentielle de la normalisation puis de l'estimation. Pour finir, nous accélérons l'estimation de modèles linéaires parcimonieux, prenant en compte des interactions deux à deux, grâce à un nouvel algorithme. L'accélération obtenue rend cette estimation possible et efficace sur des jeux de données comportant plusieurs centaines de milliers de variables originales, permettant ainsi d'étendre la portée de ces modèles aux données des études d'associations pangénomiques. === Since the first sequencing of the human genome in the early 2000s, large endeavours have set out to map the genetic variability among individuals, or DNA alterations in cancer cells. They have laid foundations for the emergence of precision medicine, which aims at integrating the genetic specificities of an individual with its conventional medical record to adapt treatment, or prevention strategies.Translating DNA variations and alterations into phenotypic predictions is however a difficult problem. DNA sequencers and microarrays measure more variables than there are samples, which poses statistical issues. The data is also subject to technical biases and noise inherent in these technologies. Finally, the vast and intricate networks of interactions among proteins obscure the impact of DNA variations on the cell behaviour, prompting the need for predictive models that are able to capture a certain degree of complexity. This thesis presents novel methodological contributions to address these challenges. First, we define a novel representation for tumour mutation profiles that exploits prior knowledge on protein-protein interaction networks. For certain cancers, this representation allows improving survival predictions from mutation data as well as stratifying patients into meaningful subgroups. Second, we present a new learning framework to jointly handle data normalisation with the estimation of a linear model. Our experiments show that it improves prediction performances compared to handling these tasks sequentially. Finally, we propose a new algorithm to scale up sparse linear models estimation with two-way interactions. The obtained speed-up makes this estimation possible and efficient for datasets with hundreds of thousands of main effects, thereby extending the scope of such models to the data from genome-wide association studies.
author2 Paris Sciences et Lettres
author_facet Paris Sciences et Lettres
Le Morvan, Marine
author Le Morvan, Marine
author_sort Le Morvan, Marine
title Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
title_short Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
title_full Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
title_fullStr Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
title_full_unstemmed Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
title_sort développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques
publishDate 2018
url http://www.theses.fr/2018PSLEM041/document
work_keys_str_mv AT lemorvanmarine developpementderepresentationsetdalgorithmesefficacespourlapprentissagestatistiquesurdesdonneesgenomiques
AT lemorvanmarine learningfromgenomicdataefficientrepresentationsandalgorithms
_version_ 1719193913618595840
spelling ndltd-theses.fr-2018PSLEM0412019-05-30T03:36:48Z Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques Learning from genomic data : efficient representations and algorithms. Mutations Réseaux de gènes Normalisation par les quantiles Polymorphismes mononucléotidiques (SNPs) LASSO avec interactions Mutations Gene networks Quantile normalisation Single Nucleotide Polymorphisms (SNPs) LASSO with pairwise interactions 570.15 Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l'émergence de la médecine de précision, dont le but est d'intégrer aux dossiers médicaux conventionnels les spécificités génétiques d'un individu, afin de mieux adapter les traitements et les stratégies de prévention. La traduction des variations et des altérations de l'ADN en prédictions phénotypiques constitue toutefois un problème difficile. Les séquenceurs ou puces à ADN mesurent plus de variables qu'il n'y a d'échantillons, posant ainsi des problèmes statistiques. Les données brutes sont aussi sujettes aux biais techniques et au bruit inhérent à ces technologies. Enfin, les vastes réseaux d'interactions à l'échelle des protéines obscurcissent l'impact des variations génétiques sur le comportement de la cellule, et incitent au développement de modèles prédictifs capables de capturer un certain degré de complexité.Cette thèse présente de nouvelles contributions méthodologiques pour répondre à ces défis.Tout d'abord, nous définissons une nouvelle représentation des profils de mutations tumorales, qui exploite leur position dans les réseaux d'interaction protéine-protéine. Pour certains cancers, cette représentation permet d'améliorer les prédictions de survie à partir des données de mutations, et de stratifier les cohortes de patients en sous-groupes informatifs. Nous présentons ensuite une nouvelle méthode d'apprentissage permettant de gérer conjointement la normalisation des données et l'estimation d'un modèle linéaire. Nos expériences montrent que cette méthode améliore les performances prédictives par rapport à une gestion séquentielle de la normalisation puis de l'estimation. Pour finir, nous accélérons l'estimation de modèles linéaires parcimonieux, prenant en compte des interactions deux à deux, grâce à un nouvel algorithme. L'accélération obtenue rend cette estimation possible et efficace sur des jeux de données comportant plusieurs centaines de milliers de variables originales, permettant ainsi d'étendre la portée de ces modèles aux données des études d'associations pangénomiques. Since the first sequencing of the human genome in the early 2000s, large endeavours have set out to map the genetic variability among individuals, or DNA alterations in cancer cells. They have laid foundations for the emergence of precision medicine, which aims at integrating the genetic specificities of an individual with its conventional medical record to adapt treatment, or prevention strategies.Translating DNA variations and alterations into phenotypic predictions is however a difficult problem. DNA sequencers and microarrays measure more variables than there are samples, which poses statistical issues. The data is also subject to technical biases and noise inherent in these technologies. Finally, the vast and intricate networks of interactions among proteins obscure the impact of DNA variations on the cell behaviour, prompting the need for predictive models that are able to capture a certain degree of complexity. This thesis presents novel methodological contributions to address these challenges. First, we define a novel representation for tumour mutation profiles that exploits prior knowledge on protein-protein interaction networks. For certain cancers, this representation allows improving survival predictions from mutation data as well as stratifying patients into meaningful subgroups. Second, we present a new learning framework to jointly handle data normalisation with the estimation of a linear model. Our experiments show that it improves prediction performances compared to handling these tasks sequentially. Finally, we propose a new algorithm to scale up sparse linear models estimation with two-way interactions. The obtained speed-up makes this estimation possible and efficient for datasets with hundreds of thousands of main effects, thereby extending the scope of such models to the data from genome-wide association studies. Electronic Thesis or Dissertation Text en http://www.theses.fr/2018PSLEM041/document Le Morvan, Marine 2018-07-03 Paris Sciences et Lettres Vert, Jean-Philippe Zinovyev, Andrei