Méthodes de distance pour l'inférence phylogénomique
L'inférence phylogénomique cherche à combiner le signal évolutif induit par un ensemble de gènes dans le but de construire un unique arbre phylogénétique.<br />Elle peut être décomposée en trois grandes familles méthodologiques: la combinaison basse, qui s'appuie sur la concaténation...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Montpellier II - Sciences et Techniques du Languedoc
2006
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00142222 http://tel.archives-ouvertes.fr/docs/00/14/22/22/PDF/memoire.pdf |
Summary: | L'inférence phylogénomique cherche à combiner le signal évolutif induit par un ensemble de gènes dans le but de construire un unique arbre phylogénétique.<br />Elle peut être décomposée en trois grandes familles méthodologiques: la combinaison basse, qui s'appuie sur la concaténation des différents gènes, la combinaison haute, qui considère l'ensemble des arbres inférés à partir de chaque gène, et la combinaison moyenne, qui encode les différents signaux phylogénétiques puis combine ces différents encodages.<br />Une méthode d'inférence d'arbre est ensuite appliquée sur le résultat de la combinaison.<br /><br />Cette thèse développe de nouveaux scénarios d'inférence phylogénomique, principalement basés sur l'estimation de distances évolutives entre chaque paire de taxons.<br />Elle propose une nouvelle méthode de combinaison moyenne, nommée SDM, qui considère les matrices de distance estimées à partir de chaque gène et qui les combine en une unique supermatrice de distance.<br />Cette dernière pouvant parfois contenir des distances manquantes, cette thèse décrit également de nouveaux algorithmes, nommés NJ*, UNJ*, BioNJ* et MVR*, permettant d'inférer très rapidement un arbre à partir d'une matrice de distance complète ou incomplète.<br />De nombreuses simulations ont permis d'observer les bonnes performances de ces nouvelles méthodes de distance.<br />Initialement développées pour la combinaison moyenne, elles permettent toutefois d'améliorer significativement les résultats de certaines approches standards en combinaison basse, et représentent une alternative efficace à MRP, la plus utilisée des techniques de combinaison haute, en termes de fiabilité et de rapidité.<br />La taille des jeux de données phylogénomiques étant de plus en plus importante, les méthodes développées dans cette thèse constituent ainsi des outils de choix pour construire l'Arbre de la Vie. |
---|