Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.

La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", comb...

Full description

Bibliographic Details
Main Author: Silva Bernardes, Juliana
Language:ENG
Published: Université Pierre et Marie Curie - Paris VI 2012
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00684155
http://tel.archives-ouvertes.fr/docs/00/68/41/55/PDF/these.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00684155
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006841552013-01-07T16:59:26Z http://tel.archives-ouvertes.fr/tel-00684155 http://tel.archives-ouvertes.fr/docs/00/68/41/55/PDF/these.pdf Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines. Silva Bernardes, Juliana [INFO:INFO_BI] Computer Science/Bioinformatics [SDV:BIBS] Life Sciences/Quantitative Methods [INFO:INFO_LG] Computer Science/Learning Biologie computationelle approche discriminative programmation logique inductive ma- chine à vecteurs de support ensemble de modèles optimisation multi-objectif La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", combinant la programmation logique inductive (PLI) et les modèles propositionnels. Elle propose une nouvelle représentation logique des propriétés physico-chimiques des résidus et des positions conservées au sein de l'alignement de séquences. Ainsi, PLI trouve les règles les plus fréquentes et les utilise pour la phase d'apprentissage utilisant des modèles d'arbre de décision ou de machine à vecteurs de support. La méthode présente au moins les mêmes performances que les autres méthodes trouvées dans la littérature. Puis, nous proposons la méthode CASH pour annoter les génomes très divergents. CASH a été appliqué à Plasmodium falciparum, mais reste applicable à toutes les espèces. CASH utilise aussi bien l'information issue de génomes proches ou éloignés de P. falciparum. Chaque domaine connu est ainsi représenté par un ensemble de modèles évolutifs, et les sorties sont combinées par un méta-classificateur qui assigne un score de confiance à chaque prédiction. Basé sur ce score et sur des propriétés de co-ocurrences de domaines, CASH trouve l'architecture la plus probable de chaque séquence en appliquant une approche d'optimisation multi-objectif. CASH est capable d'annoter 70% des domaines protéiques de P. falciparum, contre une moyenne de 58% pour ses concurrents. De nouveaux domaines protéiques ont pu être caractérisés au sein de protéines de fonction inconnue ou déjà annotées. 2012-03-28 ENG PhD thesis Université Pierre et Marie Curie - Paris VI
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
[INFO:INFO_LG] Computer Science/Learning
Biologie computationelle
approche discriminative
programmation logique inductive
ma- chine à vecteurs de support
ensemble de modèles
optimisation multi-objectif
spellingShingle [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
[INFO:INFO_LG] Computer Science/Learning
Biologie computationelle
approche discriminative
programmation logique inductive
ma- chine à vecteurs de support
ensemble de modèles
optimisation multi-objectif
Silva Bernardes, Juliana
Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
description La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", combinant la programmation logique inductive (PLI) et les modèles propositionnels. Elle propose une nouvelle représentation logique des propriétés physico-chimiques des résidus et des positions conservées au sein de l'alignement de séquences. Ainsi, PLI trouve les règles les plus fréquentes et les utilise pour la phase d'apprentissage utilisant des modèles d'arbre de décision ou de machine à vecteurs de support. La méthode présente au moins les mêmes performances que les autres méthodes trouvées dans la littérature. Puis, nous proposons la méthode CASH pour annoter les génomes très divergents. CASH a été appliqué à Plasmodium falciparum, mais reste applicable à toutes les espèces. CASH utilise aussi bien l'information issue de génomes proches ou éloignés de P. falciparum. Chaque domaine connu est ainsi représenté par un ensemble de modèles évolutifs, et les sorties sont combinées par un méta-classificateur qui assigne un score de confiance à chaque prédiction. Basé sur ce score et sur des propriétés de co-ocurrences de domaines, CASH trouve l'architecture la plus probable de chaque séquence en appliquant une approche d'optimisation multi-objectif. CASH est capable d'annoter 70% des domaines protéiques de P. falciparum, contre une moyenne de 58% pour ses concurrents. De nouveaux domaines protéiques ont pu être caractérisés au sein de protéines de fonction inconnue ou déjà annotées.
author Silva Bernardes, Juliana
author_facet Silva Bernardes, Juliana
author_sort Silva Bernardes, Juliana
title Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
title_short Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
title_full Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
title_fullStr Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
title_full_unstemmed Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
title_sort evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
publisher Université Pierre et Marie Curie - Paris VI
publishDate 2012
url http://tel.archives-ouvertes.fr/tel-00684155
http://tel.archives-ouvertes.fr/docs/00/68/41/55/PDF/these.pdf
work_keys_str_mv AT silvabernardesjuliana evolutionetapprentissageautomatiquepourlannotationfonctionnelleetlaclassificationdeshomologieslointainsenproteines
_version_ 1716395503240871936