Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations

L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de sé...

Full description

Bibliographic Details
Main Author: Luu, Keurcien
Other Authors: Grenoble Alpes
Language:fr
Published: 2017
Subjects:
004
570
510
Online Access:http://www.theses.fr/2017GREAS053/document
id ndltd-theses.fr-2017GREAS053
record_format oai_dc
spelling ndltd-theses.fr-2017GREAS0532018-06-22T04:55:10Z Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations Application of Principal Component Analysis to study biological adaptation in population genomics Génétique des populations Machine Learning Apprentissage statistique Séquençage nouvelle génération Bio-Informatique Population Genetics Machine Learning Statistical Learning Next-Generation Sequencing Bioinformatics 004 570 510 L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées. Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data. Electronic Thesis or Dissertation Text fr http://www.theses.fr/2017GREAS053/document Luu, Keurcien 2017-12-21 Grenoble Alpes Blum, Michaël
collection NDLTD
language fr
sources NDLTD
topic Génétique des populations
Machine Learning
Apprentissage statistique
Séquençage nouvelle génération
Bio-Informatique
Population Genetics
Machine Learning
Statistical Learning
Next-Generation Sequencing
Bioinformatics
004
570
510
spellingShingle Génétique des populations
Machine Learning
Apprentissage statistique
Séquençage nouvelle génération
Bio-Informatique
Population Genetics
Machine Learning
Statistical Learning
Next-Generation Sequencing
Bioinformatics
004
570
510
Luu, Keurcien
Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
description L'identification de gènes ayant permis à des populations de s'adapter à leur environnement local constitue une des problématiques majeures du domaine de la génétique des populations. Les méthodes statistiques actuelles répondant à cette problématique ne sont plus adaptées aux données de séquençage nouvelle génération (NGS). Nous proposons dans cette thèse de nouvelles statistiques adaptées à ces nouveaux volumes de données, destinées à la détection de gènes sous sélection. Nos méthodes reposent exclusivement sur l'Analyse en Composantes Principales, dont nous justifierons l'utilisation en génétique des populations. Nous expliquerons également les raisons pour lesquelles nos approches généralisent les méthodes statistiques existantes et démontrons l'intérêt d'utiliser une approche basée sur l'Analyse en Composantes Principales en comparant nos méthodes à celles de l'état de l'art. Notre travail a notamment abouti au développement de pcadapt, une librairie R permettant l'utilisation de nos statistiques de détection sur des données génétiques variées. === Identifying genes involved in local adaptation is of major interest in population genetics. Current statistical methods for genome scans are no longer suited to the analysis of Next Generation Sequencing (NGS) data. We propose new statistical methods to perform genome scans on massive datasets. Our methods rely exclusively on Principal Component Analysis which use in population genetics will be discussed extensively. We also explain the reasons why our approaches can be seen as extensions of existing methods and demonstrate how our PCA-based statistics compare with state-of-the-art methods. Our work has led to the development of pcadapt, an R package designed for outlier detection for various genetic data.
author2 Grenoble Alpes
author_facet Grenoble Alpes
Luu, Keurcien
author Luu, Keurcien
author_sort Luu, Keurcien
title Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
title_short Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
title_full Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
title_fullStr Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
title_full_unstemmed Application de l'Analyse en Composantes Principales pour étudier l'adaptation biologique en génomique des populations
title_sort application de l'analyse en composantes principales pour étudier l'adaptation biologique en génomique des populations
publishDate 2017
url http://www.theses.fr/2017GREAS053/document
work_keys_str_mv AT luukeurcien applicationdelanalyseencomposantesprincipalespouretudierladaptationbiologiqueengenomiquedespopulations
AT luukeurcien applicationofprincipalcomponentanalysistostudybiologicaladaptationinpopulationgenomics
_version_ 1718702398502862848