Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA

=== Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced to accept as true something believed by the community in order to advance their research. In the genomic research field, some dogmas are still attached to scientific culture and the main goal of this thesis is...

Full description

Bibliographic Details
Main Author: Francisco Prosdocimi de Castro Santos
Other Authors: Jose Miguel Ortega
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2006
Online Access:http://hdl.handle.net/1843/GRFO-7ZGK4Q
id ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-GRFO-7ZGK4Q
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
description === Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced to accept as true something believed by the community in order to advance their research. In the genomic research field, some dogmas are still attached to scientific culture and the main goal of this thesis is the tentative to question some of these dogmas and bring to the light of reason a consistent knowledge about some restrict aspects related to the base-calling process. Therefore, in order to evaluate the execution of PHRED, the main base-caller used in genome projects, we first develop a consistent methodology of analysis. Using this methodology we have tried to reduce the number of variables to be analyzed in sequencing reads, making our analysis free of particularities happening in some specific sequencing reaction. With this in mind, we have performed the sequencing of a well-known cloning vector (pUC18) in a singlepool, homogenizing the samples before and after the sequencing reaction. So, 846 sequences from the pUC18 cloning vector were produced by single-pool and compared, through local alignments, with a positive control: the sequence published for this molecule. This comparison allowed us both to identify precisely the errors happening in the sequencing and/or base-calling and to evaluate different parameters used for PHRED running. We have verified (1) an error pattern very similar to the expected one, (2) the impossibility to predict errors evaluating the base quality values surrounding the neighborhood of miscalled bases, (3) the high presence of mismatches in low quality values and (4) the presence of some indels in high quality regions. We have realized also an application of these base-calling data to the process of designing primers for sequencing and one study was published on this subject. Trying to softmask low quality bases, we have made another study to find the best PHRED quality value to be used to mask most of the errors without masking correct bases. Moreover, we have studied and adjusted PHRED trimming parameters in order to retrieve from the sequence just the biologically relevant information. At last, we have analyzed the consensus production through different number of sequencing reads in order to find the appropriate number of sample re-sequencing to generate a highfidelity molecule. === A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigado a tomar como verdade algo que se acredita na comunidade de forma a realizar suas pesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estão ainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar, na medida do possível, questionar e testar alguns desses dogmas com a intenção de trazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectos relacionados, principalmente, ao processo de nomeação das bases (base-calling). Para avaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de bases utilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida de análise. Tal metodologia tentou diminuir o número de variáveis a se analisar em uma corrida de seqüenciamento para que nossas análises não levassem em consideração peculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamos o seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um único conjunto, homogeneizando as amostras de forma que a única variável possível fosse a separação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846 seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais, com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma, pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliar diferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão de erros observado era relativamente igual ao esperado, que as bases incorretas não podiam ser previstas através da observação dos valores de qualidade de sua vizinhança e que as trocas (mismatches) são mais comuns quando associadas a valores baixos de qualidade, enquanto se nota a presença de erros relacionados a indels de alta qualidade. Percebemos também uma aplicação desta abordagem para o processo de desenho de iniciadores de seqüenciamento e realizamos um estudo avaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a uma distância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo de tentar mascarar as bases incorretas em letras minúsculas, observamos que o valor de qualidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte das situações. Além disso, calibramos o programa PHRED para funcionar de forma a apresentar apenas a informação não-ruidosa, biologicamente relevante. Por último, analisamos ainda a formação de consensos a partir dessas seqüências e mostramos a surpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéis à molécula molde.
author2 Jose Miguel Ortega
author_facet Jose Miguel Ortega
Francisco Prosdocimi de Castro Santos
author Francisco Prosdocimi de Castro Santos
spellingShingle Francisco Prosdocimi de Castro Santos
Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
author_sort Francisco Prosdocimi de Castro Santos
title Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_short Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_fullStr Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_full_unstemmed Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
title_sort racionalizando a utilização do algoritmo phred para a análise de seqüências de dna
publisher Universidade Federal de Minas Gerais
publishDate 2006
url http://hdl.handle.net/1843/GRFO-7ZGK4Q
work_keys_str_mv AT franciscoprosdocimidecastrosantos racionalizandoautilizacaodoalgoritmophredparaaanalisedesequenciasdedna
_version_ 1718845089192607744
spelling ndltd-IBICT-oai-bibliotecadigital.ufmg.br-MTD2BR-GRFO-7ZGK4Q2019-01-21T17:58:53Z Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA Francisco Prosdocimi de Castro Santos Jose Miguel Ortega Fabricio Rodrigues dos Santos Georgios Joannis Pappas Ana Tereza Ribeiro Vasconcelos Marcos Augusto dos Santos Sergio Danilo Junho Pena Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced to accept as true something believed by the community in order to advance their research. In the genomic research field, some dogmas are still attached to scientific culture and the main goal of this thesis is the tentative to question some of these dogmas and bring to the light of reason a consistent knowledge about some restrict aspects related to the base-calling process. Therefore, in order to evaluate the execution of PHRED, the main base-caller used in genome projects, we first develop a consistent methodology of analysis. Using this methodology we have tried to reduce the number of variables to be analyzed in sequencing reads, making our analysis free of particularities happening in some specific sequencing reaction. With this in mind, we have performed the sequencing of a well-known cloning vector (pUC18) in a singlepool, homogenizing the samples before and after the sequencing reaction. So, 846 sequences from the pUC18 cloning vector were produced by single-pool and compared, through local alignments, with a positive control: the sequence published for this molecule. This comparison allowed us both to identify precisely the errors happening in the sequencing and/or base-calling and to evaluate different parameters used for PHRED running. We have verified (1) an error pattern very similar to the expected one, (2) the impossibility to predict errors evaluating the base quality values surrounding the neighborhood of miscalled bases, (3) the high presence of mismatches in low quality values and (4) the presence of some indels in high quality regions. We have realized also an application of these base-calling data to the process of designing primers for sequencing and one study was published on this subject. Trying to softmask low quality bases, we have made another study to find the best PHRED quality value to be used to mask most of the errors without masking correct bases. Moreover, we have studied and adjusted PHRED trimming parameters in order to retrieve from the sequence just the biologically relevant information. At last, we have analyzed the consensus production through different number of sequencing reads in order to find the appropriate number of sample re-sequencing to generate a highfidelity molecule. A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigado a tomar como verdade algo que se acredita na comunidade de forma a realizar suas pesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estão ainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar, na medida do possível, questionar e testar alguns desses dogmas com a intenção de trazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectos relacionados, principalmente, ao processo de nomeação das bases (base-calling). Para avaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de bases utilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida de análise. Tal metodologia tentou diminuir o número de variáveis a se analisar em uma corrida de seqüenciamento para que nossas análises não levassem em consideração peculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamos o seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um único conjunto, homogeneizando as amostras de forma que a única variável possível fosse a separação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846 seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais, com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma, pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliar diferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão de erros observado era relativamente igual ao esperado, que as bases incorretas não podiam ser previstas através da observação dos valores de qualidade de sua vizinhança e que as trocas (mismatches) são mais comuns quando associadas a valores baixos de qualidade, enquanto se nota a presença de erros relacionados a indels de alta qualidade. Percebemos também uma aplicação desta abordagem para o processo de desenho de iniciadores de seqüenciamento e realizamos um estudo avaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a uma distância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo de tentar mascarar as bases incorretas em letras minúsculas, observamos que o valor de qualidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte das situações. Além disso, calibramos o programa PHRED para funcionar de forma a apresentar apenas a informação não-ruidosa, biologicamente relevante. Por último, analisamos ainda a formação de consensos a partir dessas seqüências e mostramos a surpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéis à molécula molde. 2006-11-01 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/1843/GRFO-7ZGK4Q por info:eu-repo/semantics/openAccess text/html Universidade Federal de Minas Gerais 32001010068P4 - BIOINFORMÁTICA UFMG BR reponame:Biblioteca Digital de Teses e Dissertações da UFMG instname:Universidade Federal de Minas Gerais instacron:UFMG