Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
=== Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced to accept as true something believed by the community in order to advance their research. In the genomic research field, some dogmas are still attached to scientific culture and the main goal of this thesis is...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Federal de Minas Gerais
2006
|
Online Access: | http://hdl.handle.net/1843/GRFO-7ZGK4Q |
id |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-GRFO-7ZGK4Q |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
description |
=== Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced
to accept as true something believed by the community in order to advance their
research. In the genomic research field, some dogmas are still attached to scientific
culture and the main goal of this thesis is the tentative to question some of these
dogmas and bring to the light of reason a consistent knowledge about some restrict
aspects related to the base-calling process. Therefore, in order to evaluate the
execution of PHRED, the main base-caller used in genome projects, we first develop a
consistent methodology of analysis. Using this methodology we have tried to reduce
the number of variables to be analyzed in sequencing reads, making our analysis free
of particularities happening in some specific sequencing reaction. With this in mind, we
have performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,
homogenizing the samples before and after the sequencing reaction. So, 846
sequences from the pUC18 cloning vector were produced by single-pool and compared,
through local alignments, with a positive control: the sequence published for this
molecule. This comparison allowed us both to identify precisely the errors happening in
the sequencing and/or base-calling and to evaluate different parameters used for
PHRED running. We have verified (1) an error pattern very similar to the expected one,
(2) the impossibility to predict errors evaluating the base quality values surrounding
the neighborhood of miscalled bases, (3) the high presence of mismatches in low
quality values and (4) the presence of some indels in high quality regions. We have
realized also an application of these base-calling data to the process of designing
primers for sequencing and one study was published on this subject. Trying to
softmask low quality bases, we have made another study to find the best PHRED
quality value to be used to mask most of the errors without masking correct bases.
Moreover, we have studied and adjusted PHRED trimming parameters in order to
retrieve from the sequence just the biologically relevant information. At last, we have
analyzed the consensus production through different number of sequencing reads in
order to find the appropriate number of sample re-sequencing to generate a highfidelity
molecule. === A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigado
a tomar como verdade algo que se acredita na comunidade de forma a realizar suas
pesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estão
ainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,
na medida do possível, questionar e testar alguns desses dogmas com a intenção de
trazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectos
relacionados, principalmente, ao processo de nomeação das bases (base-calling). Para
avaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de bases
utilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida de
análise. Tal metodologia tentou diminuir o número de variáveis a se analisar em uma
corrida de seqüenciamento para que nossas análises não levassem em consideração
peculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamos
o seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um único
conjunto, homogeneizando as amostras de forma que a única variável possível fosse a
separação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846
seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,
com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,
pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliar
diferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão de
erros observado era relativamente igual ao esperado, que as bases incorretas não
podiam ser previstas através da observação dos valores de qualidade de sua
vizinhança e que as trocas (mismatches) são mais comuns quando associadas a
valores baixos de qualidade, enquanto se nota a presença de erros relacionados a
indels de alta qualidade. Percebemos também uma aplicação desta abordagem para o
processo de desenho de iniciadores de seqüenciamento e realizamos um estudo
avaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a uma
distância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo de
tentar mascarar as bases incorretas em letras minúsculas, observamos que o valor de
qualidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte das
situações. Além disso, calibramos o programa PHRED para funcionar de forma a
apresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,
analisamos ainda a formação de consensos a partir dessas seqüências e mostramos a
surpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéis
à molécula molde. |
author2 |
Jose Miguel Ortega |
author_facet |
Jose Miguel Ortega Francisco Prosdocimi de Castro Santos |
author |
Francisco Prosdocimi de Castro Santos |
spellingShingle |
Francisco Prosdocimi de Castro Santos Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
author_sort |
Francisco Prosdocimi de Castro Santos |
title |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_short |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_full |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_fullStr |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_full_unstemmed |
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA |
title_sort |
racionalizando a utilização do algoritmo phred para a análise de seqüências de dna |
publisher |
Universidade Federal de Minas Gerais |
publishDate |
2006 |
url |
http://hdl.handle.net/1843/GRFO-7ZGK4Q |
work_keys_str_mv |
AT franciscoprosdocimidecastrosantos racionalizandoautilizacaodoalgoritmophredparaaanalisedesequenciasdedna |
_version_ |
1718845089192607744 |
spelling |
ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-GRFO-7ZGK4Q2019-01-21T17:58:53Z Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA Francisco Prosdocimi de Castro Santos Jose Miguel Ortega Fabricio Rodrigues dos Santos Georgios Joannis Pappas Ana Tereza Ribeiro Vasconcelos Marcos Augusto dos Santos Sergio Danilo Junho Pena Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced to accept as true something believed by the community in order to advance their research. In the genomic research field, some dogmas are still attached to scientific culture and the main goal of this thesis is the tentative to question some of these dogmas and bring to the light of reason a consistent knowledge about some restrict aspects related to the base-calling process. Therefore, in order to evaluate the execution of PHRED, the main base-caller used in genome projects, we first develop a consistent methodology of analysis. Using this methodology we have tried to reduce the number of variables to be analyzed in sequencing reads, making our analysis free of particularities happening in some specific sequencing reaction. With this in mind, we have performed the sequencing of a well-known cloning vector (pUC18) in a singlepool, homogenizing the samples before and after the sequencing reaction. So, 846 sequences from the pUC18 cloning vector were produced by single-pool and compared, through local alignments, with a positive control: the sequence published for this molecule. This comparison allowed us both to identify precisely the errors happening in the sequencing and/or base-calling and to evaluate different parameters used for PHRED running. We have verified (1) an error pattern very similar to the expected one, (2) the impossibility to predict errors evaluating the base quality values surrounding the neighborhood of miscalled bases, (3) the high presence of mismatches in low quality values and (4) the presence of some indels in high quality regions. We have realized also an application of these base-calling data to the process of designing primers for sequencing and one study was published on this subject. Trying to softmask low quality bases, we have made another study to find the best PHRED quality value to be used to mask most of the errors without masking correct bases. Moreover, we have studied and adjusted PHRED trimming parameters in order to retrieve from the sequence just the biologically relevant information. At last, we have analyzed the consensus production through different number of sequencing reads in order to find the appropriate number of sample re-sequencing to generate a highfidelity molecule. A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigado a tomar como verdade algo que se acredita na comunidade de forma a realizar suas pesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estão ainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar, na medida do possível, questionar e testar alguns desses dogmas com a intenção de trazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectos relacionados, principalmente, ao processo de nomeação das bases (base-calling). Para avaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de bases utilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida de análise. Tal metodologia tentou diminuir o número de variáveis a se analisar em uma corrida de seqüenciamento para que nossas análises não levassem em consideração peculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamos o seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um único conjunto, homogeneizando as amostras de forma que a única variável possível fosse a separação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846 seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais, com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma, pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliar diferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão de erros observado era relativamente igual ao esperado, que as bases incorretas não podiam ser previstas através da observação dos valores de qualidade de sua vizinhança e que as trocas (mismatches) são mais comuns quando associadas a valores baixos de qualidade, enquanto se nota a presença de erros relacionados a indels de alta qualidade. Percebemos também uma aplicação desta abordagem para o processo de desenho de iniciadores de seqüenciamento e realizamos um estudo avaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a uma distância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo de tentar mascarar as bases incorretas em letras minúsculas, observamos que o valor de qualidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte das situações. Além disso, calibramos o programa PHRED para funcionar de forma a apresentar apenas a informação não-ruidosa, biologicamente relevante. Por último, analisamos ainda a formação de consensos a partir dessas seqüências e mostramos a surpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéis à molécula molde. 2006-11-01 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/1843/GRFO-7ZGK4Q por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010068P4 - BIOINFORMÁTICA UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG |