Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques

L’avènement du génotypage à haut débit permet aujourd’hui de mieux exploiter le phénomène d’association, appelé déséquilibre de liaison (LD), qui existe entre les allèles de différents loci sur le génome. Dans ce contexte, l’utilité de certains modèles utilisés en cartographie de locus à effets quan...

Full description

Bibliographic Details
Main Author: Jacquin, Laval
Other Authors: Toulouse, INPT
Language:fr
en
Published: 2014
Subjects:
Online Access:http://www.theses.fr/2014INPT0073/document
id ndltd-theses.fr-2014INPT0073
record_format oai_dc
collection NDLTD
language fr
en
sources NDLTD
topic Locus à effets quantitatifs (QTL)
Déséquilibre de liaison (LD)
Puissance statistique
Robustesse statistique
Association
Liaison
Distance matricielle
Haplotypes
Quantitative trait locus (QTL)
Linkage disequilibrium (LD)
Statistical power
Statistical robustness
Association
Linkage
Matrix distance
Haplotypes

spellingShingle Locus à effets quantitatifs (QTL)
Déséquilibre de liaison (LD)
Puissance statistique
Robustesse statistique
Association
Liaison
Distance matricielle
Haplotypes
Quantitative trait locus (QTL)
Linkage disequilibrium (LD)
Statistical power
Statistical robustness
Association
Linkage
Matrix distance
Haplotypes

Jacquin, Laval
Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
description L’avènement du génotypage à haut débit permet aujourd’hui de mieux exploiter le phénomène d’association, appelé déséquilibre de liaison (LD), qui existe entre les allèles de différents loci sur le génome. Dans ce contexte, l’utilité de certains modèles utilisés en cartographie de locus à effets quantitatifs (QTL) est remise en question. Les objectifs de ce travail étaient de discriminer entre des modèles utilisés en routine en cartographie et d’apporter des éclaircissements sur la meilleure façon d’exploiter le LD, par l’utilisation d’haplotypes, afin d’optimiser les modèles basés sur ce concept. On montre que les modèles uni-marqueur de liaison, développés en génétique il y a vingtaine d’années, comportent peu d’intérêts aujourd’hui avec le génotypage à haut débit. Dans ce contexte, on montre que les modèles uni-marqueur d’association comportent plus d’avantages que les modèles uni-marqueur de liaison, surtout pour des QTL ayant un effet petit ou modéré sur le phénotype, à condition de bien maîtriser la structure génétique entre individus. Les puissances et les robustesses statistiques de ces modèles ont été étudiées, à la fois sur le plan théorique et par simulations, afin de valider les résultats obtenus pour la comparaison de l’association avec la liaison. Toutefois, les modèles uni-marqueur ne sont pas aussi efficaces que les modèles utilisant des haplotypes dans la prise en compte du LD pour une cartographie fine de QTL. Des propriétés mathématiques reliées à la cartographie de QTL par l’exploitation du LD multiallélique capté par les modèles haplotypiques ont été explicitées et étudiées à l’aide d’une distance matricielle définie entre deux positions sur le génome. Cette distance a été exprimée algébriquement comme une fonction des coefficients du LD multiallélique. Les propriétés mathématiques liées à cette fonction montrent qu’il est difficile de bien exploiter le LD multiallélique, pour un génotypage à haut débit, si l’on ne tient pas compte uniquement de la similarité totale entre des haplotypes. Des études sur données réelles et simulées ont illustré ces propriétés et montrent une corrélation supérieure à 0.9 entre une statistique basée sur la distance matricielle et des résultats de cartographie. Cette forte corrélation a donné lieu à la proposition d’une méthode, basée sur la distance matricielle, qui aide à discriminer entre les modèles utilisés en cartographie. === The advent of high-throughput genotyping nowadays allows better exploitation of the association phenomenon, called linkage disequilibrium (LD), between alleles of different loci on the genome. In this context, the usefulness of some models to fine map quantitative trait locus (QTL) is questioned. The aims of this work were to discriminate between models routinely used for QTL mapping and to provide enlightenment on the best way to exploit LD, when using haplotypes, in order to optimize haplotype-based models. We show that single-marker linkage models, developed twenty years ago, have little interest today with the advent of high-throughput genotyping. In this context, we show that single-marker association models are more advantageous than single-marker linkage models, especially for QTL with a small or moderate effect on the phenotype. The statistical powers and robustness of these models have been studied both theoretically and by simulations, in order to validate the comparison of single-marker association models with single-marker linkage models. However, single-marker models are less efficient than haplotype-based models for making better use of LD in fine mapping of QTL. Mathematical properties related to the multiallelic LD captured by haplotype-based models have been shown, and studied, by the use of a matrix distance defined between two loci on the genome. This distance has been expressed algebraically as a function of the multiallelic LD coefficients. The mathematical properties related to this function show that it is difficult to exploit well multiallelic LD, for a high-throughput genotyping, if one takes into account the partial and total similarity between haplotypes instead of the total similarity only. Studies on real and simulated data illustrate these properties and show a correlation above 0.9 between a statistic based on the matrix distance and mapping results. Hence a new method, based on the matrix distance, which helps to discriminate between models used for mapping is proposed.
author2 Toulouse, INPT
author_facet Toulouse, INPT
Jacquin, Laval
author Jacquin, Laval
author_sort Jacquin, Laval
title Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
title_short Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
title_full Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
title_fullStr Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
title_full_unstemmed Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
title_sort optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques
publishDate 2014
url http://www.theses.fr/2014INPT0073/document
work_keys_str_mv AT jacquinlaval optimisationdesmethodesstatistiquesdanalysedelavariabilitedescaracteresalaidedinformationsgenomiques
AT jacquinlaval optimizationofstatisticalmethodsusinggenomicdataforqtldetection
_version_ 1718489025765965824
spelling ndltd-theses.fr-2014INPT00732017-07-01T04:42:03Z Optimisation des méthodes statistiques d'analyse de la variabilité des caractères à l'aide d'informations génomiques Optimization of statistical methods using genomic data for QTL detection Locus à effets quantitatifs (QTL) Déséquilibre de liaison (LD) Puissance statistique Robustesse statistique Association Liaison Distance matricielle Haplotypes Quantitative trait locus (QTL) Linkage disequilibrium (LD) Statistical power Statistical robustness Association Linkage Matrix distance Haplotypes L’avènement du génotypage à haut débit permet aujourd’hui de mieux exploiter le phénomène d’association, appelé déséquilibre de liaison (LD), qui existe entre les allèles de différents loci sur le génome. Dans ce contexte, l’utilité de certains modèles utilisés en cartographie de locus à effets quantitatifs (QTL) est remise en question. Les objectifs de ce travail étaient de discriminer entre des modèles utilisés en routine en cartographie et d’apporter des éclaircissements sur la meilleure façon d’exploiter le LD, par l’utilisation d’haplotypes, afin d’optimiser les modèles basés sur ce concept. On montre que les modèles uni-marqueur de liaison, développés en génétique il y a vingtaine d’années, comportent peu d’intérêts aujourd’hui avec le génotypage à haut débit. Dans ce contexte, on montre que les modèles uni-marqueur d’association comportent plus d’avantages que les modèles uni-marqueur de liaison, surtout pour des QTL ayant un effet petit ou modéré sur le phénotype, à condition de bien maîtriser la structure génétique entre individus. Les puissances et les robustesses statistiques de ces modèles ont été étudiées, à la fois sur le plan théorique et par simulations, afin de valider les résultats obtenus pour la comparaison de l’association avec la liaison. Toutefois, les modèles uni-marqueur ne sont pas aussi efficaces que les modèles utilisant des haplotypes dans la prise en compte du LD pour une cartographie fine de QTL. Des propriétés mathématiques reliées à la cartographie de QTL par l’exploitation du LD multiallélique capté par les modèles haplotypiques ont été explicitées et étudiées à l’aide d’une distance matricielle définie entre deux positions sur le génome. Cette distance a été exprimée algébriquement comme une fonction des coefficients du LD multiallélique. Les propriétés mathématiques liées à cette fonction montrent qu’il est difficile de bien exploiter le LD multiallélique, pour un génotypage à haut débit, si l’on ne tient pas compte uniquement de la similarité totale entre des haplotypes. Des études sur données réelles et simulées ont illustré ces propriétés et montrent une corrélation supérieure à 0.9 entre une statistique basée sur la distance matricielle et des résultats de cartographie. Cette forte corrélation a donné lieu à la proposition d’une méthode, basée sur la distance matricielle, qui aide à discriminer entre les modèles utilisés en cartographie. The advent of high-throughput genotyping nowadays allows better exploitation of the association phenomenon, called linkage disequilibrium (LD), between alleles of different loci on the genome. In this context, the usefulness of some models to fine map quantitative trait locus (QTL) is questioned. The aims of this work were to discriminate between models routinely used for QTL mapping and to provide enlightenment on the best way to exploit LD, when using haplotypes, in order to optimize haplotype-based models. We show that single-marker linkage models, developed twenty years ago, have little interest today with the advent of high-throughput genotyping. In this context, we show that single-marker association models are more advantageous than single-marker linkage models, especially for QTL with a small or moderate effect on the phenotype. The statistical powers and robustness of these models have been studied both theoretically and by simulations, in order to validate the comparison of single-marker association models with single-marker linkage models. However, single-marker models are less efficient than haplotype-based models for making better use of LD in fine mapping of QTL. Mathematical properties related to the multiallelic LD captured by haplotype-based models have been shown, and studied, by the use of a matrix distance defined between two loci on the genome. This distance has been expressed algebraically as a function of the multiallelic LD coefficients. The mathematical properties related to this function show that it is difficult to exploit well multiallelic LD, for a high-throughput genotyping, if one takes into account the partial and total similarity between haplotypes instead of the total similarity only. Studies on real and simulated data illustrate these properties and show a correlation above 0.9 between a statistic based on the matrix distance and mapping results. Hence a new method, based on the matrix distance, which helps to discriminate between models used for mapping is proposed. Electronic Thesis or Dissertation Text fr en http://www.theses.fr/2014INPT0073/document Jacquin, Laval 2014-10-10 Toulouse, INPT Elsen, Jean-Michel