Summary: | === Science is sometimes dogmatic. Even the very thinker scientists are sometimes forced
to accept as true something believed by the community in order to advance their
research. In the genomic research field, some dogmas are still attached to scientific
culture and the main goal of this thesis is the tentative to question some of these
dogmas and bring to the light of reason a consistent knowledge about some restrict
aspects related to the base-calling process. Therefore, in order to evaluate the
execution of PHRED, the main base-caller used in genome projects, we first develop a
consistent methodology of analysis. Using this methodology we have tried to reduce
the number of variables to be analyzed in sequencing reads, making our analysis free
of particularities happening in some specific sequencing reaction. With this in mind, we
have performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,
homogenizing the samples before and after the sequencing reaction. So, 846
sequences from the pUC18 cloning vector were produced by single-pool and compared,
through local alignments, with a positive control: the sequence published for this
molecule. This comparison allowed us both to identify precisely the errors happening in
the sequencing and/or base-calling and to evaluate different parameters used for
PHRED running. We have verified (1) an error pattern very similar to the expected one,
(2) the impossibility to predict errors evaluating the base quality values surrounding
the neighborhood of miscalled bases, (3) the high presence of mismatches in low
quality values and (4) the presence of some indels in high quality regions. We have
realized also an application of these base-calling data to the process of designing
primers for sequencing and one study was published on this subject. Trying to
softmask low quality bases, we have made another study to find the best PHRED
quality value to be used to mask most of the errors without masking correct bases.
Moreover, we have studied and adjusted PHRED trimming parameters in order to
retrieve from the sequence just the biologically relevant information. At last, we have
analyzed the consensus production through different number of sequencing reads in
order to find the appropriate number of sample re-sequencing to generate a highfidelity
molecule. === A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigado
a tomar como verdade algo que se acredita na comunidade de forma a realizar suas
pesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estão
ainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,
na medida do possível, questionar e testar alguns desses dogmas com a intenção de
trazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectos
relacionados, principalmente, ao processo de nomeação das bases (base-calling). Para
avaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de bases
utilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida de
análise. Tal metodologia tentou diminuir o número de variáveis a se analisar em uma
corrida de seqüenciamento para que nossas análises não levassem em consideração
peculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamos
o seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um único
conjunto, homogeneizando as amostras de forma que a única variável possível fosse a
separação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846
seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,
com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,
pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliar
diferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão de
erros observado era relativamente igual ao esperado, que as bases incorretas não
podiam ser previstas através da observação dos valores de qualidade de sua
vizinhança e que as trocas (mismatches) são mais comuns quando associadas a
valores baixos de qualidade, enquanto se nota a presença de erros relacionados a
indels de alta qualidade. Percebemos também uma aplicação desta abordagem para o
processo de desenho de iniciadores de seqüenciamento e realizamos um estudo
avaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a uma
distância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo de
tentar mascarar as bases incorretas em letras minúsculas, observamos que o valor de
qualidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte das
situações. Além disso, calibramos o programa PHRED para funcionar de forma a
apresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,
analisamos ainda a formação de consensos a partir dessas seqüências e mostramos a
surpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéis
à molécula molde.
|