Uma metodologia para determinação do organismo de origem de sequencias de DNA com aplicação em projetos EST

Orientador: João Carlos Setubal === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-31T09:21:06Z (GMT). No. of bitstreams: 1 Piazza_JoaoPaulo_M.pdf: 1307969 bytes, checksum: 885944b1beb24b7a3979738e217bfb50 (MD5) Previous...

Full description

Bibliographic Details
Main Author: Piazza, João Paulo
Other Authors: UNIVERSIDADE ESTADUAL DE CAMPINAS
Format: Others
Language:Portuguese
Published: [s.n.] 2004
Subjects:
Online Access:PIAZZA, João Paulo. Uma metodologia para determinação do organismo de origem de sequencias de DNA com aplicação em projetos EST. 2004. 91 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275787>. Acesso em: 31 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/275787
Description
Summary:Orientador: João Carlos Setubal === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-31T09:21:06Z (GMT). No. of bitstreams: 1 Piazza_JoaoPaulo_M.pdf: 1307969 bytes, checksum: 885944b1beb24b7a3979738e217bfb50 (MD5) Previous issue date: 2004 === Resumo: Este trabalho apresenta uma nova metodologia para a determinação computacional do organismo de origem de seqüência de DNA, implementada na forma de um programa chamado QUEST. O QUEST é baseado em dois princípios: a extração de informações intrínsecas a cada seqüência, chamadas de características, e a extração de diferentes tipos de características e sua combinação para se chegar a melhores resultados. São utilizados 7 diferentes programas como extratores de características, alguns desenvolvidos por terceiros (Glimmer e ESTScan) e outros desenvolvidos pelo autor. As características foram combinadas utilizando vários classificadores diferentes, variando desde uma soma simples até os baseados em vetores de suporte. O QUEST requer seqüências para treinamento. Em comparação com as abordagens baseadas em similaridade, as vantagens principais da QUEST estão no fornecimento de previsões para as taxas de erro e na capacidade de lidar com seqüências sem similaridades significativas em bancos de seqüência. O QUEST foi aplicado ao problema de determinar automaticamente contaminantes em projetos EST. São apresentados resultados de experimentos simulados e de um projeto EST real (o projeto EST de Schistosoma mansoni). Nos experimentos simulados foram atingidas taxas de falsos positivos mais falsos negativos de aproximadamente 10%. No projeto de S.mansoni o QUEST sugere que a contaminação em seqüências supostamente legítimas poderia ser de pelo menos 6%. No teste com S.mansoni, o QUEST foi 10 vezes mais rápido que o tempo necessário para executar o BLASTX em todas as seqüências testadas. O QUEST tem outras aplicações, incluindo a determinação do organismo de origem na nova abordagem genômica chamada de genômica ambiental (também chamada de metagenômica). === Abstract: This work presents a new methodology for computational ascertainment of organismal origin of DNA sequences, which we call QUEST. QUEST is based on two principles: that of extracting intrinsic information from each sequence, which are called features, and of extracting deferent kinds of features and combining them to achieve a better result. We use as feature extractors 7 deferent programs, some third-party (Glimmer and ESTScan) and others developed by the author. We combine features using many diferent standard classifers, ranging from simple sum to support vector machines. QUEST requires training sequences. In comparison to similarity-based approaches, QUEST has the main advantages of providing predicted error rates and of being able to deal with sequences without a significant match in sequence databases. We applied QUEST to the problem of automatically determining contaminants in EST projects. We present results from a simulated experiment and from a real EST project (the Schistosoma mansoni EST project). In the simulated experiment we achieved rates of false positives plus false negatives of around 10%. In the S.mansoni project QUEST suggests that contamination in supposedly bona _de sequences may be of at least 6%. In the S.mansoni test, QUEST was 10 times faster than the time it took to run BLASTX on all tested sequences. QUEST has a number of other applications, including the determination of organismal origin in the new approach to genomics called environmental genomics (also called metagenomics) === Mestrado === Mestre em Ciência da Computação