Avaliação do viés GC em plataformas de sequenciamento de nova geração

Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-05-25T18:39:25Z No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) === Approved for entry into...

Full description

Bibliographic Details
Main Author: PINHEIRO, Kenny da Costa
Other Authors: RAMOS, Rommel Thiago Jucá
Language:Portuguese
Published: Universidade Federal do Pará 2015
Subjects:
Online Access:http://repositorio.ufpa.br/jspui/handle/2011/6730
id ndltd-IBICT-oai-repositorio.ufpa.br-2011-6730
record_format oai_dc
collection NDLTD
language Portuguese
sources NDLTD
topic CNPQ::CIENCIAS BIOLOGICAS::GENETICA::GENETICA MOLECULAR E DE MICROORGANISMOS
Bioinformática
Genoma
Corynebacterium pseudotuberculosis
Viés GC
spellingShingle CNPQ::CIENCIAS BIOLOGICAS::GENETICA::GENETICA MOLECULAR E DE MICROORGANISMOS
Bioinformática
Genoma
Corynebacterium pseudotuberculosis
Viés GC
PINHEIRO, Kenny da Costa
Avaliação do viés GC em plataformas de sequenciamento de nova geração
description Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-05-25T18:39:25Z No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) === Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2015-05-27T12:38:30Z (GMT) No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) === Made available in DSpace on 2015-05-27T12:38:30Z (GMT). No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) Previous issue date: 2015-03 === FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas === O surgimento das plataformas de sequenciamento de nova geração (NGS) proporcionou o aumento do volume de dados produzidos, tornando possível a obtenção de genomas completos. Apesar das vantagens alcançadas com estas plataformas, são observadas regiões de elevada ou baixa cobertura, em relação à média, associadas diretamente ao conteúdo GC. Este viés GC pode afetar análises genômicas e dificultar a montagem de genomas através da abordagem de novo, além de afetar as análises baseadas em referência. Além do que, as maneiras de avaliar o viés GC deve ser adequada para dados com diferentes perfis de relação/associação entre GC e cobertura, tais como linear e quadrático. Desta forma, este trabalho propõe o uso do Coeficiente de Correlação de Pearson (r) para analisar a correlação entre conteúdo GC e Cobertura, permitindo identificar aintensidade da correlação linear e detectar associações não-lineares, além de identificar a relação entre viés GC e as plataformas de sequenciamento. Os sinais positivos e negativos de r também permitem inferir relações diretamente proporcionais e inversamente proporcionais respectivamente. Utilizou-se dados da espécie Corynebacterium pseudotuberculosis, conhecido por serem genomas clonais obtidas através de diferentes tecnologias de sequenciamento para identificar se há relação do viés GC com as plataformas utilizadas. === The emergence of high throughput sequencing (HTS) platforms increased the amount of data making feasible to obtaining complete genomes. Despite the advantages and the throughput produced by these platforms, the high or low genomic coverage in the regions of the genome can be related to GC content. This GC bias may affect genomic analyzes and the genomic/transcriptomic analysis based on de novo and reference approach. In addition, the ways to evaluate the GC bias should be fit to data with different profiles of the GC vs coverage relationship, such as linear and quadratic. Thus, this work proposes the use of Pearson's Correlation Coefficient (r) to analyze the correlation between GC content and coverage, allowing to identify the strength of linear correlation and detect nonlinear associations, beyond identify a relationship between GC bias and sequencing platforms. The positive and negative signs of r also allow us to infer directly and inversely proportional relationships, respectively. To evaluate the bias, we used the data of Corynebacterium pseudotuberculosis obtained from different sequencing technologies to identify if the CG bias is related to used platforms.
author2 RAMOS, Rommel Thiago Jucá
author_facet RAMOS, Rommel Thiago Jucá
PINHEIRO, Kenny da Costa
author PINHEIRO, Kenny da Costa
author_sort PINHEIRO, Kenny da Costa
title Avaliação do viés GC em plataformas de sequenciamento de nova geração
title_short Avaliação do viés GC em plataformas de sequenciamento de nova geração
title_full Avaliação do viés GC em plataformas de sequenciamento de nova geração
title_fullStr Avaliação do viés GC em plataformas de sequenciamento de nova geração
title_full_unstemmed Avaliação do viés GC em plataformas de sequenciamento de nova geração
title_sort avaliação do viés gc em plataformas de sequenciamento de nova geração
publisher Universidade Federal do Pará
publishDate 2015
url http://repositorio.ufpa.br/jspui/handle/2011/6730
work_keys_str_mv AT pinheirokennydacosta avaliacaodoviesgcemplataformasdesequenciamentodenovageracao
_version_ 1718971397231869952
spelling ndltd-IBICT-oai-repositorio.ufpa.br-2011-67302019-02-03T16:05:24Z Avaliação do viés GC em plataformas de sequenciamento de nova geração PINHEIRO, Kenny da Costa RAMOS, Rommel Thiago Jucá CNPQ::CIENCIAS BIOLOGICAS::GENETICA::GENETICA MOLECULAR E DE MICROORGANISMOS Bioinformática Genoma Corynebacterium pseudotuberculosis Viés GC Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-05-25T18:39:25Z No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2015-05-27T12:38:30Z (GMT) No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) Made available in DSpace on 2015-05-27T12:38:30Z (GMT). No. of bitstreams: 2 license_rdf: 22974 bytes, checksum: 99c771d9f0b9c46790009b9874d49253 (MD5) Dissertacao_AvaliacaoViesGC.pdf: 2733576 bytes, checksum: 9bd7b306d18c9262798f5c16a04c4c4a (MD5) Previous issue date: 2015-03 FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas O surgimento das plataformas de sequenciamento de nova geração (NGS) proporcionou o aumento do volume de dados produzidos, tornando possível a obtenção de genomas completos. Apesar das vantagens alcançadas com estas plataformas, são observadas regiões de elevada ou baixa cobertura, em relação à média, associadas diretamente ao conteúdo GC. Este viés GC pode afetar análises genômicas e dificultar a montagem de genomas através da abordagem de novo, além de afetar as análises baseadas em referência. Além do que, as maneiras de avaliar o viés GC deve ser adequada para dados com diferentes perfis de relação/associação entre GC e cobertura, tais como linear e quadrático. Desta forma, este trabalho propõe o uso do Coeficiente de Correlação de Pearson (r) para analisar a correlação entre conteúdo GC e Cobertura, permitindo identificar aintensidade da correlação linear e detectar associações não-lineares, além de identificar a relação entre viés GC e as plataformas de sequenciamento. Os sinais positivos e negativos de r também permitem inferir relações diretamente proporcionais e inversamente proporcionais respectivamente. Utilizou-se dados da espécie Corynebacterium pseudotuberculosis, conhecido por serem genomas clonais obtidas através de diferentes tecnologias de sequenciamento para identificar se há relação do viés GC com as plataformas utilizadas. The emergence of high throughput sequencing (HTS) platforms increased the amount of data making feasible to obtaining complete genomes. Despite the advantages and the throughput produced by these platforms, the high or low genomic coverage in the regions of the genome can be related to GC content. This GC bias may affect genomic analyzes and the genomic/transcriptomic analysis based on de novo and reference approach. In addition, the ways to evaluate the GC bias should be fit to data with different profiles of the GC vs coverage relationship, such as linear and quadratic. Thus, this work proposes the use of Pearson's Correlation Coefficient (r) to analyze the correlation between GC content and coverage, allowing to identify the strength of linear correlation and detect nonlinear associations, beyond identify a relationship between GC bias and sequencing platforms. The positive and negative signs of r also allow us to infer directly and inversely proportional relationships, respectively. To evaluate the bias, we used the data of Corynebacterium pseudotuberculosis obtained from different sequencing technologies to identify if the CG bias is related to used platforms. 2015-05-27T12:38:30Z 2015-05-27T12:38:30Z 2015-03-05 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis PINHEIRO, Kenny da Costa. Avaliação do viés GC em plataformas de sequenciamento de nova geração. 2015. 59 f. Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Ciências Biológicas, Belém, 2015. Programa de Pós-Graduação em Biotecnologia. http://repositorio.ufpa.br/jspui/handle/2011/6730 por info:eu-repo/semantics/openAccess Universidade Federal do Pará Programa de Pós-Graduação em Biotecnologia UFPA Brasil Instituto de Ciências Biológicas reponame:Repositório Institucional da UFPA instname:Universidade Federal do Pará instacron:UFPA