Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage

Le séquençage de nouvelle génération (NGS) a révolutionné la recherche chez les plantes et les animaux de plusieurs façons, y compris via le développement de nouvelles méthodes de génotypage à haut débit pour accélérer considérablement l'étude de la composition des génomes et de leurs fonctions...

Full description

Bibliographic Details
Main Author: Torkamaneh, Davoud
Other Authors: Belzile, François
Format: Doctoral Thesis
Language:French
Published: Université Laval 2017
Subjects:
Online Access:http://hdl.handle.net/20.500.11794/27878
id ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-27878
record_format oai_dc
collection NDLTD
language French
format Doctoral Thesis
sources NDLTD
topic S 405 UL 2017
Soja -- Génétique
Séquence nucléotidique
Génotypes
spellingShingle S 405 UL 2017
Soja -- Génétique
Séquence nucléotidique
Génotypes
Torkamaneh, Davoud
Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
description Le séquençage de nouvelle génération (NGS) a révolutionné la recherche chez les plantes et les animaux de plusieurs façons, y compris via le développement de nouvelles méthodes de génotypage à haut débit pour accélérer considérablement l'étude de la composition des génomes et de leurs fonctions. Dans le cadre du projet SoyaGen, financé par Génome Canada, nous cherchons à mieux comprendre la diversité génétique et l'architecture sous-jacente régissant les principaux caractères agronomiques chez le soja. Le soja est la plus importante culture oléagineuse au monde en termes économiques. Dans cette étude, nous avons cherché à exploiter les technologies NGS afin de contribuer à l'élucidation des caractéristiques génomiques du soja. Pour ce faire, trois axes de recherche ont formé le cœur de cette thèse : 1) le génotypage pan-génomique à faible coût, 2) la caractérisation exhaustive des variants génétiques par reséquençage complet et 3) l’identification de mutations à fort impact fonctionnel sur la base d’une forte sélection au sein des lignées élites. Un premier défi en analyse génétique ou génomique est de rendre possible une caractérisation rapide et peu coûteuse d’un grand nombre de lignées à un très grand nombre de marqueurs répartis sur tout le génome. Le génotypage par séquençage (GBS) permet d'effectuer simultanément l’identification et le génotypage de plusieurs milliers de SNP à l'échelle du génome. Un des grands défis en analyse GBS est d’extraire, d’une montagne de données issues du séquençage, un grand catalogue de SNP de haute qualité et de minimiser l’impact des données manquantes. Dans une première étape, nous avons grandement amélioré le GBS en développant un nouveau pipeline d’analyse bio-informatique, Fast-GBS, conçu pour produire un appel de génotypes plus précis et plus rapide que les outils existants. De plus, nous avons optimisé des outils permettant d’effectuer l'imputation des données manquantes. Ainsi, nous avons pu obtenir un catalogue de 60K marqueurs SNP au sein d’une collection de 301 accessions qui se voulait représentative de la diversité du soja au Canada. Dans un second temps, toutes les données manquantes (~50%) ont été imputées avec un très grand degré d’exactitude (98 %). Cette caractérisation génétique a été réalisée pour un coût modique, soit moins de 15$ par lignée. Deuxièmement, pour caractériser de manière exhaustive les variations nucléotidiques et structurelles (SNV et SV, respectivement) dans le génome du soja, nous avons séquencé le génome entier de 102 accessions de soja au Canada. Nous avons identifié près de 5M de variants nucléotidiques (SNP, MNP et Indels) avec un haut niveau d’exactitude (98,6 %). Ensuite, en utilisant une combinaison de trois approches différentes, nous avons détecté ~92K SV (délétions, insertions, inversions, duplications, CNV et translocations) et estimé que plus de 90 % étaient exacts. C'est la première fois qu'une description complète de la diversité des haplotypes SNP et du SV a été réalisée chez une espèce cultivée. Enfin, nous avons mis au point une approche analytique systématique pour faciliter grandement l’identification de gènes dont des allèles ont fait l’objet d’une très forte sélection au cours de la domestication et de la sélection. Cette approche repose sur deux progrès récents en génomique : 1) le séquençage de génomes entiers et 2) la prédiction des mutations entraînant une perte de fonction (LOF pour « loss of function »). En utilisant cette approche, nous avons identifié 130 gènes candidats liés à la domestication ou à la sélection chez le soja. Ce catalogue contient tous les gènes de domestication précédemment caractérisés chez le soja, ainsi que certains orthologues chez d'autres espèces cultivées. Cette liste de gènes fournit de nombreuses pistes d’investigation pour des études visant à mieux comprendre les gènes qui contribuent fortement à façonner le soja cultivé. Cette thèse permet ultimement une meilleure compréhension des caractéristiques génomiques du soja. En outre, elle fournit plusieurs outils et références génomiques qui pourraient facilement être utilisés dans de futures recherches en génomique chez le soja de même que chez d’autres espèces. === Next-generation sequencing (NGS) has revolutionized plants and animals research in many ways, including the development of new high-throughput genotyping methods to accelerate considerably the composition of genomes and their functions. As part of the SoyaGen project, funded by Genome Canada, we are seeking to better understand the genetic diversity and underlying architecture governing major agronomic traits in soybeans. Soybean is the world's largest oilseed crop in economic terms. In this study, we sought to exploit NGS technologies to help elucidate the genomic characteristics of soybeans. To this end, three main research topics have formed the core of this thesis: 1) low-cost genome-wide genotyping, 2) exhaustive characterization of genetic variants by whole-genome resequencing, and 3) identification of mutations with high functional impact on the basis of a strong selection within the elite lines. A first challenge in genetic or genomic analysis is to make possible a rapid and inexpensive characterization of a large number of lines with a very large number of markers distributed throughout the genome. Genotyping-by-sequencing (GBS) allows simultaneous identification and genotyping of several thousand SNPs on a genome-wide scale. One of the major challenges in GBS analysis is to extract a large catalog of high quality SNP from a mountain of sequencing data and minimize the impact of missing data. As a first step, we have greatly improved the GBS by developing a new bio-informatics analysis pipeline, Fast-GBS, designed to produce a more accurate and faster call of genotypes than existing tools. In addition, we have optimized tools for imputing missing data. For example, we were able to obtain a catalog of 60K SNP markers from a collection of 301 accessions that were representative of soybean diversity in Canada. Second, all missing data (~ 50%) were imputed with a very high degree of accuracy (98%). This genetic characterization was performed at a low cost, less than $ 15 per line. Second, to fully characterize the nucleotide and structural variations (SNV and SV, respectively) in the soybean genome, we sequenced the whole genome of 102 Canadian soybean accessions. We have identified nearly 5M of nucleotide variants (SNP, MNP and Indels) with a high level of accuracy (98.6%). Then, using a combination of three different approaches, we detected ~ 92K SV (deletions, insertions, inversions, duplications, CNVs and translocations) and estimated that more than 90% were accurate. This is the first time that a complete description of the diversity of SNP and SV haplotypes has been carried out in a cultivated species. Finally, we have developed a systematic analytical approach to greatly facilitate the identification of genes whose alleles have undergone a very strong selection during domestication and selection. This approach is based on two recent advances in genomics: (1) whole-genome sequencing and (2) predicting mutations resulting in loss of function (LOF). Using this approach, we identified 130 candidate genes related to domestication or selection in soybean. This catalogue contains all of the previously well-characterized domestication genes in soybean, as well as some orthologues from other domesticated crop species. This list of genes provides many avenues of investigation for studies aimed at better understanding the genes that contribute strongly to shaping cultivated soybeans. This thesis ultimately leads to a better understanding of the genomic characteristics of soybeans. In addition, it provides several tools and genomic resources that could easily be used in future genomic research in soybeans as well as in other species.
author2 Belzile, François
author_facet Belzile, François
Torkamaneh, Davoud
author Torkamaneh, Davoud
author_sort Torkamaneh, Davoud
title Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
title_short Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
title_full Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
title_fullStr Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
title_full_unstemmed Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
title_sort analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage
publisher Université Laval
publishDate 2017
url http://hdl.handle.net/20.500.11794/27878
work_keys_str_mv AT torkamanehdavoud analysedelavariationnucleotidiqueetstructuralechezlesojaparuneapprochederesequencage
_version_ 1719335082484826112
spelling ndltd-LAVAL-oai-corpus.ulaval.ca-20.500.11794-278782020-07-31T17:08:30Z Analyse de la variation nucléotidique et structurale chez le soja par une approche de re-séquençage Torkamaneh, Davoud Belzile, François Bélanger, Richard R. S 405 UL 2017 Soja -- Génétique Séquence nucléotidique Génotypes Le séquençage de nouvelle génération (NGS) a révolutionné la recherche chez les plantes et les animaux de plusieurs façons, y compris via le développement de nouvelles méthodes de génotypage à haut débit pour accélérer considérablement l'étude de la composition des génomes et de leurs fonctions. Dans le cadre du projet SoyaGen, financé par Génome Canada, nous cherchons à mieux comprendre la diversité génétique et l'architecture sous-jacente régissant les principaux caractères agronomiques chez le soja. Le soja est la plus importante culture oléagineuse au monde en termes économiques. Dans cette étude, nous avons cherché à exploiter les technologies NGS afin de contribuer à l'élucidation des caractéristiques génomiques du soja. Pour ce faire, trois axes de recherche ont formé le cœur de cette thèse : 1) le génotypage pan-génomique à faible coût, 2) la caractérisation exhaustive des variants génétiques par reséquençage complet et 3) l’identification de mutations à fort impact fonctionnel sur la base d’une forte sélection au sein des lignées élites. Un premier défi en analyse génétique ou génomique est de rendre possible une caractérisation rapide et peu coûteuse d’un grand nombre de lignées à un très grand nombre de marqueurs répartis sur tout le génome. Le génotypage par séquençage (GBS) permet d'effectuer simultanément l’identification et le génotypage de plusieurs milliers de SNP à l'échelle du génome. Un des grands défis en analyse GBS est d’extraire, d’une montagne de données issues du séquençage, un grand catalogue de SNP de haute qualité et de minimiser l’impact des données manquantes. Dans une première étape, nous avons grandement amélioré le GBS en développant un nouveau pipeline d’analyse bio-informatique, Fast-GBS, conçu pour produire un appel de génotypes plus précis et plus rapide que les outils existants. De plus, nous avons optimisé des outils permettant d’effectuer l'imputation des données manquantes. Ainsi, nous avons pu obtenir un catalogue de 60K marqueurs SNP au sein d’une collection de 301 accessions qui se voulait représentative de la diversité du soja au Canada. Dans un second temps, toutes les données manquantes (~50%) ont été imputées avec un très grand degré d’exactitude (98 %). Cette caractérisation génétique a été réalisée pour un coût modique, soit moins de 15$ par lignée. Deuxièmement, pour caractériser de manière exhaustive les variations nucléotidiques et structurelles (SNV et SV, respectivement) dans le génome du soja, nous avons séquencé le génome entier de 102 accessions de soja au Canada. Nous avons identifié près de 5M de variants nucléotidiques (SNP, MNP et Indels) avec un haut niveau d’exactitude (98,6 %). Ensuite, en utilisant une combinaison de trois approches différentes, nous avons détecté ~92K SV (délétions, insertions, inversions, duplications, CNV et translocations) et estimé que plus de 90 % étaient exacts. C'est la première fois qu'une description complète de la diversité des haplotypes SNP et du SV a été réalisée chez une espèce cultivée. Enfin, nous avons mis au point une approche analytique systématique pour faciliter grandement l’identification de gènes dont des allèles ont fait l’objet d’une très forte sélection au cours de la domestication et de la sélection. Cette approche repose sur deux progrès récents en génomique : 1) le séquençage de génomes entiers et 2) la prédiction des mutations entraînant une perte de fonction (LOF pour « loss of function »). En utilisant cette approche, nous avons identifié 130 gènes candidats liés à la domestication ou à la sélection chez le soja. Ce catalogue contient tous les gènes de domestication précédemment caractérisés chez le soja, ainsi que certains orthologues chez d'autres espèces cultivées. Cette liste de gènes fournit de nombreuses pistes d’investigation pour des études visant à mieux comprendre les gènes qui contribuent fortement à façonner le soja cultivé. Cette thèse permet ultimement une meilleure compréhension des caractéristiques génomiques du soja. En outre, elle fournit plusieurs outils et références génomiques qui pourraient facilement être utilisés dans de futures recherches en génomique chez le soja de même que chez d’autres espèces. Next-generation sequencing (NGS) has revolutionized plants and animals research in many ways, including the development of new high-throughput genotyping methods to accelerate considerably the composition of genomes and their functions. As part of the SoyaGen project, funded by Genome Canada, we are seeking to better understand the genetic diversity and underlying architecture governing major agronomic traits in soybeans. Soybean is the world's largest oilseed crop in economic terms. In this study, we sought to exploit NGS technologies to help elucidate the genomic characteristics of soybeans. To this end, three main research topics have formed the core of this thesis: 1) low-cost genome-wide genotyping, 2) exhaustive characterization of genetic variants by whole-genome resequencing, and 3) identification of mutations with high functional impact on the basis of a strong selection within the elite lines. A first challenge in genetic or genomic analysis is to make possible a rapid and inexpensive characterization of a large number of lines with a very large number of markers distributed throughout the genome. Genotyping-by-sequencing (GBS) allows simultaneous identification and genotyping of several thousand SNPs on a genome-wide scale. One of the major challenges in GBS analysis is to extract a large catalog of high quality SNP from a mountain of sequencing data and minimize the impact of missing data. As a first step, we have greatly improved the GBS by developing a new bio-informatics analysis pipeline, Fast-GBS, designed to produce a more accurate and faster call of genotypes than existing tools. In addition, we have optimized tools for imputing missing data. For example, we were able to obtain a catalog of 60K SNP markers from a collection of 301 accessions that were representative of soybean diversity in Canada. Second, all missing data (~ 50%) were imputed with a very high degree of accuracy (98%). This genetic characterization was performed at a low cost, less than $ 15 per line. Second, to fully characterize the nucleotide and structural variations (SNV and SV, respectively) in the soybean genome, we sequenced the whole genome of 102 Canadian soybean accessions. We have identified nearly 5M of nucleotide variants (SNP, MNP and Indels) with a high level of accuracy (98.6%). Then, using a combination of three different approaches, we detected ~ 92K SV (deletions, insertions, inversions, duplications, CNVs and translocations) and estimated that more than 90% were accurate. This is the first time that a complete description of the diversity of SNP and SV haplotypes has been carried out in a cultivated species. Finally, we have developed a systematic analytical approach to greatly facilitate the identification of genes whose alleles have undergone a very strong selection during domestication and selection. This approach is based on two recent advances in genomics: (1) whole-genome sequencing and (2) predicting mutations resulting in loss of function (LOF). Using this approach, we identified 130 candidate genes related to domestication or selection in soybean. This catalogue contains all of the previously well-characterized domestication genes in soybean, as well as some orthologues from other domesticated crop species. This list of genes provides many avenues of investigation for studies aimed at better understanding the genes that contribute strongly to shaping cultivated soybeans. This thesis ultimately leads to a better understanding of the genomic characteristics of soybeans. In addition, it provides several tools and genomic resources that could easily be used in future genomic research in soybeans as well as in other species. 2017 info:eu-repo/semantics/openAccess https://corpus.ulaval.ca/jspui/conditions.jsp info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/20.500.11794/27878 fre 1 ressource en ligne (xviii, 157 pages) application/pdf Université Laval