Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data

Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statisti...

Full description

Bibliographic Details
Main Author: Coucke, Alice
Other Authors: Paris Sciences et Lettres
Language:en
Published: 2016
Subjects:
Online Access:http://www.theses.fr/2016PSLEE034/document
id ndltd-theses.fr-2016PSLEE034
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic Inférence
Apprentissage statistique
Régularisation
Entropie maximale
Ccoévolution des protéines
Modélisation statistique des séquences de protéines
Vraisemblance maximale
Champ moyen
Pseudo vraisemblance
Développement en grappe
Inference
Statistical learning
Regularization
Maximum entropy
Protein coevolution
Statistical modeling of protein sequences
Maximum likelihood
Mean field
Pseudolikelihood
Cluster expansion
530.13
spellingShingle Inférence
Apprentissage statistique
Régularisation
Entropie maximale
Ccoévolution des protéines
Modélisation statistique des séquences de protéines
Vraisemblance maximale
Champ moyen
Pseudo vraisemblance
Développement en grappe
Inference
Statistical learning
Regularization
Maximum entropy
Protein coevolution
Statistical modeling of protein sequences
Maximum likelihood
Mean field
Pseudolikelihood
Cluster expansion
530.13
Coucke, Alice
Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
description Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée. === Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data.
author2 Paris Sciences et Lettres
author_facet Paris Sciences et Lettres
Coucke, Alice
author Coucke, Alice
author_sort Coucke, Alice
title Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
title_short Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
title_full Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
title_fullStr Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
title_full_unstemmed Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
title_sort statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data
publishDate 2016
url http://www.theses.fr/2016PSLEE034/document
work_keys_str_mv AT couckealice statisticalmodelingofproteinsequencesbeyondstructuralpredictionhighdimensionalinferencewithcorrelateddata
AT couckealice modelisationstatistiquedessequencesdeproteinesaudeladelapredictionstructurelleinferenceenhautedimensionavecdesdonneescorrelees
_version_ 1719207865800982528
spelling ndltd-theses.fr-2016PSLEE0342019-06-24T16:25:54Z Statistical modeling of protein sequences beyond structural prediction : high dimensional inference with correlated data Modélisation statistique des séquences de protéines au-delà de la prédiction structurelle : inférence en haute dimension avec des données corrélées Inférence Apprentissage statistique Régularisation Entropie maximale Ccoévolution des protéines Modélisation statistique des séquences de protéines Vraisemblance maximale Champ moyen Pseudo vraisemblance Développement en grappe Inference Statistical learning Regularization Maximum entropy Protein coevolution Statistical modeling of protein sequences Maximum likelihood Mean field Pseudolikelihood Cluster expansion 530.13 Grâce aux progrès des techniques de séquençage, les bases de données génomiques ont connu une croissance exponentielle depuis la fin des années 1990. Un grand nombre d'outils statistiques ont été développés à l'interface entre bioinformatique, apprentissage automatique et physique statistique, dans le but d'extraire de l'information de ce déluge de données. Plusieurs approches de physique statistique ont été récemment introduites dans le contexte précis de la modélisation de séquences de protéines, dont l'analyse en couplages directs. Cette méthode d'inférence statistique globale fondée sur le principe d'entropie maximale, s'est récemment montrée d'une efficacité redoutable pour prédire la structure tridimensionnelle de protéines, à partir de considérations purement statistiques.Dans cette thèse, nous présentons les méthodes d'inférence en question, et encouragés par leur succès, explorons d'autres domaines complexes dans lesquels elles pourraient être appliquées, comme la détection d'homologies. Contrairement à la prédiction des contacts entre résidus qui se limite à une information topologique sur le réseau d'interactions, ces nouveaux champs d'application exigent des considérations énergétiques globales et donc un modèle plus quantitatif et détaillé. À travers une étude approfondie sur des donnéesartificielles et biologiques, nous proposons une meilleure interpretation des paramètres centraux de ces méthodes d'inférence, jusqu'ici mal compris, notamment dans le cas d'un échantillonnage limité. Enfin, nous présentons une nouvelle procédure plus précise d'inférence de modèles génératifs, qui mène à des avancées importantes pour des données réelles en quantité limitée. Over the last decades, genomic databases have grown exponentially in size thanks to the constant progress of modern DNA sequencing. A large variety of statistical tools have been developed, at the interface between bioinformatics, machine learning, and statistical physics, to extract information from these ever increasing datasets. In the specific context of protein sequence data, several approaches have been recently introduced by statistical physicists, such as direct-coupling analysis, a global statistical inference method based on the maximum-entropy principle, that has proven to be extremely effective in predicting the three-dimensional structure of proteins from purely statistical considerations.In this dissertation, we review the relevant inference methods and, encouraged by their success, discuss their extension to other challenging fields, such as sequence folding prediction and homology detection. Contrary to residue-residue contact prediction, which relies on an intrinsically topological information about the network of interactions, these fields require global energetic considerations and therefore a more quantitative and detailed model. Through an extensive study on both artificial and biological data, we provide a better interpretation of the central inferred parameters, up to now poorly understood, especially in the limited sampling regime. Finally, we present a new and more precise procedure for the inference of generative models, which leads to further improvements on real, finitely sampled data. Electronic Thesis or Dissertation Text en http://www.theses.fr/2016PSLEE034/document Coucke, Alice 2016-10-10 Paris Sciences et Lettres Monasson, Rémi Weigt, Martin