Méthodes de superarbres pour la phylogénomique

La phylogénétique est un champ de recherche de la biologie qui étudie les relations évolutives entre les espèces grâce à des données moléculaires et morphologiques. Ces relations peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement esti...

Full description

Bibliographic Details
Main Author: Scornavacca, Celine
Language:ENG
Published: Université Montpellier II - Sciences et Techniques du Languedoc 2009
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00842893
http://tel.archives-ouvertes.fr/docs/00/84/28/93/PDF/ThesisFinale_Celine_Scornavacca.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00842893
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-008428932013-07-11T03:02:16Z http://tel.archives-ouvertes.fr/tel-00842893 http://tel.archives-ouvertes.fr/docs/00/84/28/93/PDF/ThesisFinale_Celine_Scornavacca.pdf Méthodes de superarbres pour la phylogénomique Scornavacca, Celine [INFO:INFO_BI] Computer Science/Bioinformatics [SDV:BIBS] Life Sciences/Quantitative Methods Phylogénie  Phylogénomique  Superarbe  Méthodes de type veto  Arbres multi-étiquetés La phylogénétique est un champ de recherche de la biologie qui étudie les relations évolutives entre les espèces grâce à des données moléculaires et morphologiques. Ces relations peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement estimés en analysant des "arbres de gènes", i.e., des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons à la fois méthodologiques et biologiques, un arbre de gènes peut différer par endroits de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent donc simultanément plusieurs jeux de données correspondant à différentes familles de gènes, laissant le poids de l'évidence décider. Ce travail de thèse s'est focalisé sur l'approche "super-arbre" pour combiner les jeux de données. Cette approche consiste premièrement à construire des arbres (appelés communément arbres sources) à partir de données primaires, puis à les assembler en un arbre plus grand et plus complet, appelé super-arbre. Si elles sont utilisées au sein d'une approche "diviser pour régner" dans le but de reconstituer des grandes parties de l'arbre de vie, il est préférable d'utiliser une méthode de super-arbres conservative afin d'obtenir des arbres très fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations fiables qui sont présentes ou induites par les arbres sources (propriété d'induction - PI), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction - PC). Nous avons défini de manière formelle ces deux propriétés. De plus, comme aucune des méthodes de super-arbres existantes ne garantissait l'obtention d'un super-arbre satisfaisant PI et PC, nous avons développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes, PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. L'application de PhySIC_IST au problème complexe de la phylogénie des Triticeae a permis de mieux comprendre l'histoire évolutive de ce groupe. Les événements de duplication aboutissent presque toujours à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, i.e., une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ce type d'arbres, ils sont le plus souvent complètement ignorés dans les approches phylogénomiques classiques. Pourtant, ils représentent 60% à 80% des arbres de gènes disponibles dans les banques de données moléculaires. Dans cette thèse, nous proposons plusieurs algorithmes permettant d'obtenir, à partir d'un arbre multi-étiqueté, un arbre classique (i.e., où chaque espèce n'apparaît qu'une seule fois) contenant un maximum d'informations de spéciation présentes dans l'arbre initial. Cet arbre peut ensuite être utilisé par n'importe quelle méthode de super-arbres. Une application à la base de données hogenom est présentée 2009-12-08 ENG PhD thesis Université Montpellier II - Sciences et Techniques du Languedoc
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
Phylogénie 
Phylogénomique 
Superarbe 
Méthodes de type veto 
Arbres multi-étiquetés
spellingShingle [INFO:INFO_BI] Computer Science/Bioinformatics
[SDV:BIBS] Life Sciences/Quantitative Methods
Phylogénie 
Phylogénomique 
Superarbe 
Méthodes de type veto 
Arbres multi-étiquetés
Scornavacca, Celine
Méthodes de superarbres pour la phylogénomique
description La phylogénétique est un champ de recherche de la biologie qui étudie les relations évolutives entre les espèces grâce à des données moléculaires et morphologiques. Ces relations peuvent être résumées dans un arbre communément appelé "arbre des espèces". Ces arbres sont principalement estimés en analysant des "arbres de gènes", i.e., des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons à la fois méthodologiques et biologiques, un arbre de gènes peut différer par endroits de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent donc simultanément plusieurs jeux de données correspondant à différentes familles de gènes, laissant le poids de l'évidence décider. Ce travail de thèse s'est focalisé sur l'approche "super-arbre" pour combiner les jeux de données. Cette approche consiste premièrement à construire des arbres (appelés communément arbres sources) à partir de données primaires, puis à les assembler en un arbre plus grand et plus complet, appelé super-arbre. Si elles sont utilisées au sein d'une approche "diviser pour régner" dans le but de reconstituer des grandes parties de l'arbre de vie, il est préférable d'utiliser une méthode de super-arbres conservative afin d'obtenir des arbres très fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations fiables qui sont présentes ou induites par les arbres sources (propriété d'induction - PI), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction - PC). Nous avons défini de manière formelle ces deux propriétés. De plus, comme aucune des méthodes de super-arbres existantes ne garantissait l'obtention d'un super-arbre satisfaisant PI et PC, nous avons développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes, PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. L'application de PhySIC_IST au problème complexe de la phylogénie des Triticeae a permis de mieux comprendre l'histoire évolutive de ce groupe. Les événements de duplication aboutissent presque toujours à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, i.e., une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ce type d'arbres, ils sont le plus souvent complètement ignorés dans les approches phylogénomiques classiques. Pourtant, ils représentent 60% à 80% des arbres de gènes disponibles dans les banques de données moléculaires. Dans cette thèse, nous proposons plusieurs algorithmes permettant d'obtenir, à partir d'un arbre multi-étiqueté, un arbre classique (i.e., où chaque espèce n'apparaît qu'une seule fois) contenant un maximum d'informations de spéciation présentes dans l'arbre initial. Cet arbre peut ensuite être utilisé par n'importe quelle méthode de super-arbres. Une application à la base de données hogenom est présentée
author Scornavacca, Celine
author_facet Scornavacca, Celine
author_sort Scornavacca, Celine
title Méthodes de superarbres pour la phylogénomique
title_short Méthodes de superarbres pour la phylogénomique
title_full Méthodes de superarbres pour la phylogénomique
title_fullStr Méthodes de superarbres pour la phylogénomique
title_full_unstemmed Méthodes de superarbres pour la phylogénomique
title_sort méthodes de superarbres pour la phylogénomique
publisher Université Montpellier II - Sciences et Techniques du Languedoc
publishDate 2009
url http://tel.archives-ouvertes.fr/tel-00842893
http://tel.archives-ouvertes.fr/docs/00/84/28/93/PDF/ThesisFinale_Celine_Scornavacca.pdf
work_keys_str_mv AT scornavaccaceline methodesdesuperarbrespourlaphylogenomique
_version_ 1716591512129634304