Caracterização do transcriptoma de folhas e frutos de Coffea eugenioides e identificação de polimorfismos de acessos de Coffea arabica da Etiópia

O café é uma das principais commodities agrícolas do mundo e o Brasil ocupa a posição de maior produtor e exportador de café mundial. Coffea arabica e C. canephora respondem pela maior parte dessa produção. As espécies do gênero são diplóides, exceto C. arabica, um alotetraplóide formado de uma rece...

Full description

Bibliographic Details
Main Author: Priscila Mary Yuyama
Other Authors: Luiz Filipe Protasio Pereira .
Language:Portuguese
Published: Universidade Estadual de Londrina, EMBRAPA, Instituto Agronômico do Paraná. 2014
Online Access:http://www.bibliotecadigital.uel.br/document/?code=vtls000206462
Description
Summary:O café é uma das principais commodities agrícolas do mundo e o Brasil ocupa a posição de maior produtor e exportador de café mundial. Coffea arabica e C. canephora respondem pela maior parte dessa produção. As espécies do gênero são diplóides, exceto C. arabica, um alotetraplóide formado de uma recente hibridação de duas espécies diplóides, C. canephora e C. eugenioides. C. arabica apresenta uma estreita base genética, principalmente pelas suas características biológicas, recente história evolutiva e origem das espécies cultivadas. O RNA-Seq tem sido utilizado em trabalhos de anotação e identificação de polimorfismos de nucleotídeo único (SNP) em plantas, com obtenção de um grande volume de dados e resultados robustos. Neste trabalho, foram obtidos 98.635.514 reads em Coffea a partir da tecnologia de sequenciamento Illumina. As sequências foram obtidas de folhas e frutos a partir de genótipos selvagens de C. arabica originários da Etiópia, C. arabica cv. Mundo Novo e C. eugenioides. No primeiro trabalho, foi feita a caracterização do transcriptoma de C. eugenioides a partir de 36.935 contigs, obtidos de uma montagem de novo. As sequências foram anotadas baseadas em bancos de dados de proteínas não-redundantes (nr) do GenBank, Swiss-Prot, Gene Ontology (GO), InterproScan, PlantCyc e KEGG. Além disso, 10 contigs com maior expressão em órgãos de folha e fruto de C. eugenioides foram selecionados para validar a sua expressão por qPCR. O segundo trabalho desenvolveu análises de RNA-Seq de todos os genótipos sequenciados. Foi possível identificar 1.410 SNPs potenciais em cinco genótipos de C. arabica a partir de uma referência de novo de C. canephora. Um total de 311 SNPs foram validados em 128 genótipos selvagens de C. arabica e cinco cultivares de C. arabica através do Sequenom MassARRAY. A análise da estrutura da coleção com o programa Strucutre demonstrou quatro sub-populações. Assim, foi desenvolvido um atlas do transcriptoma de C. eugenioides como potencial referência para estudos futuros em Coffea e foram obtidos um grupo de SNPs validados. Esses resultados podem beneficiar o desenvolvimento de estudos de associação genética e auxiliar nos trabalhos de melhoramento de cafeeiros. === Coffee is one of the most important agricultural commodities worldwide and Brazil stands out as the main coffee productor and exporter. Coffea arabica and C. canephora account with the most part of this production. The genus species are diploid, except C. arabica which is an allotetraploid from a recent hybridization of two diploid species or related species, C. canephora and C. eugenioides. C. arabica presents a narrow genetic diversity, mainly due its biological characteristics, recent evolutionary history and origin of cultivated genotypes. RNA-seq has been done in several works of annotation and SNPs identification in plants, with the production of large volume of data and robust results. In this work, we report the generation of a total of 98,635,514 reads in Coffea using Illumina sequencing. Sequences were obtained from leaves and fruits using wild C. arabica genotypes from Ethiopia, C. arabica cv. Mundo Novo and C. eugenioides. The C. eugenioides transcriptome was characterized from 36,935 contigs, obtained of a de novo assembled. Sequences were successfully annotated based on the Genbank non-redundant (Nr), Swiss-Prot, Gene Ontology (GO), InterproScan, PlantCyc and KEGG protein database. Furthermore, 10 highly expressed contigs from leaf and fruit were selected to confirm their expression by qPCR. Second work developed RNA-seq analysis of all genotypes sequenced and it was possible discovered 1,410 potential SNPs in five C. arabica genotypes using a C. canephora reference de novo assembled. They were validated 311 SNPs in 128 wild genotypes and five cultivars of C. arabica on the Sequenom MassARRAY system. Structure analysis of collection demonstrated four sub-populations. Thus, we present an overview of C. eugenioides transcriptome as a potential reference for future studies in Coffea and we obtained a set of SNPs to genotyping. These results may benefit the development of genetic association and support future studies in coffee breeding.