Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
Um tópico importante na análise de seqüências biológicas é a busca de genes, ou seja, a identificação de regiões codificantes de proteínas. Esta identificação permite a posterior procura de significado, descrição ou categorização biológica do organismo analisado. Atualmente, vários métodos combi...
Main Author: | |
---|---|
Other Authors: | |
Language: | Portuguese |
Published: |
Universidade de São Paulo
2005
|
Subjects: | |
Online Access: | http://www.teses.usp.br/teses/disponiveis/45/45134/tde-05062007-115359/ |
id |
ndltd-IBICT-oai-teses.usp.br-tde-05062007-115359 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
sources |
NDLTD |
topic |
bioinformática
identificação de genes periodicidade nos éxons pipeline processamento digital de sinais transformada modificada de Morlet bioinformatics digital signal processing genes identification modified Morlet transform periodicity in exons pipeline |
spellingShingle |
bioinformática
identificação de genes periodicidade nos éxons pipeline processamento digital de sinais transformada modificada de Morlet bioinformatics digital signal processing genes identification modified Morlet transform periodicity in exons pipeline Jesus Pascual Mena Chalco Identificação de regiões codificantes de proteína através da transformada modificada de Morlet |
description |
Um tópico importante na análise de seqüências biológicas é a busca de genes, ou seja, a identificação de regiões codificantes de proteínas. Esta identificação permite a posterior procura de significado, descrição ou categorização biológica do organismo analisado. Atualmente, vários métodos combinam reconhecimento de padrões com conhecimento coletado de conjuntos de treinamento ou de comparações com banco de dados genômicos. Entretanto, a acurácia desses métodos está ainda longe do satisfatório. Novos métodos de processamento de seqüências de DNA e de identificação de genes podem ser criados através da busca por conteúdo (search-by-content). O padrão periódico de DNA em regiões codificantes de proteína, denominada periodicidade de três bases, vem sendo considerado uma propriedade dessas regiões. As técnicas de processamento digital de sinais fornecem uma base robusta para a identificação de regiões com periodicidade de três bases. Nesta dissertação, são apresentados um \\pipeline, os conceitos básicos da identificação genômica, e métodos de processamento digital de sinais utilizados para a identificação de regiões codificantes de proteínas. Introduzimos um novo método para a identificação dessas regiões, baseado na transformada proposta, denominada Transformada Modificada de Morlet. Apresentamos vários resultados experimentais obtidos a partir de seqüências de DNA sintéticas e reais. As principais contribuições do trabalho consistem no desenvolvimento de um pipeline para projetos genoma e na criação de um método de identificação de regiões codificantes onde a periodicidade de três bases seja latente. O método apresenta desempenho superior e vantagens importantes em comparação ao método tradicional baseado na transformada de Fourier de tempo reduzido.
===
An important topic in biological sequences analysis is gene finding, i.e. the identification of protein coding regions. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism. Currently, several methods combine pattern recognition with knowledge collected from training datasets or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences. The periodic pattern of DNA in protein coding regions, called three-base periodicity, has been considered proper of coding regions. Digital signal processing techniques supply a strong basis for regions identification with three-base periodicity. In this work, we present a bioinformatics pipeline, basic concepts of the genomic identification and digital signal processing methods used for protein coding regions identification. We introduce a new method for identification of these regions, based on a newly proposed transform, called Modified Morlet Transform. We present some obtained experimental results from synthetic and real DNA sequences. The main contributions consist of the bioinformatics pipeline development for genoma projects and the creation of a method for protein coding regions identification where the three-base periodicity is latent. The method presents superior performance and important advantages in comparison to traditional method based on the short time Fourier transform.
|
author2 |
Roberto Marcondes Cesar Junior |
author_facet |
Roberto Marcondes Cesar Junior Jesus Pascual Mena Chalco |
author |
Jesus Pascual Mena Chalco |
author_sort |
Jesus Pascual Mena Chalco |
title |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
|
title_short |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
|
title_full |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
|
title_fullStr |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
|
title_full_unstemmed |
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet
|
title_sort |
identificação de regiões codificantes de proteína através da transformada modificada de morlet |
publisher |
Universidade de São Paulo |
publishDate |
2005 |
url |
http://www.teses.usp.br/teses/disponiveis/45/45134/tde-05062007-115359/ |
work_keys_str_mv |
AT jesuspascualmenachalco identificacaoderegioescodificantesdeproteinaatravesdatransformadamodificadademorlet AT jesuspascualmenachalco identificationofproteincodingregionsthroughthemodifiedmorlettransform |
_version_ |
1718890283387584512 |
spelling |
ndltd-IBICT-oai-teses.usp.br-tde-05062007-1153592019-01-21T22:04:18Z Identificação de regiões codificantes de proteína através da transformada modificada de Morlet Identification of Protein Coding Regions through the Modified Morlet Transform Jesus Pascual Mena Chalco Roberto Marcondes Cesar Junior Helaine Carrer Roberto Hirata Junior bioinformática identificação de genes periodicidade nos éxons pipeline processamento digital de sinais transformada modificada de Morlet bioinformatics digital signal processing genes identification modified Morlet transform periodicity in exons pipeline Um tópico importante na análise de seqüências biológicas é a busca de genes, ou seja, a identificação de regiões codificantes de proteínas. Esta identificação permite a posterior procura de significado, descrição ou categorização biológica do organismo analisado. Atualmente, vários métodos combinam reconhecimento de padrões com conhecimento coletado de conjuntos de treinamento ou de comparações com banco de dados genômicos. Entretanto, a acurácia desses métodos está ainda longe do satisfatório. Novos métodos de processamento de seqüências de DNA e de identificação de genes podem ser criados através da busca por conteúdo (search-by-content). O padrão periódico de DNA em regiões codificantes de proteína, denominada periodicidade de três bases, vem sendo considerado uma propriedade dessas regiões. As técnicas de processamento digital de sinais fornecem uma base robusta para a identificação de regiões com periodicidade de três bases. Nesta dissertação, são apresentados um \\pipeline, os conceitos básicos da identificação genômica, e métodos de processamento digital de sinais utilizados para a identificação de regiões codificantes de proteínas. Introduzimos um novo método para a identificação dessas regiões, baseado na transformada proposta, denominada Transformada Modificada de Morlet. Apresentamos vários resultados experimentais obtidos a partir de seqüências de DNA sintéticas e reais. As principais contribuições do trabalho consistem no desenvolvimento de um pipeline para projetos genoma e na criação de um método de identificação de regiões codificantes onde a periodicidade de três bases seja latente. O método apresenta desempenho superior e vantagens importantes em comparação ao método tradicional baseado na transformada de Fourier de tempo reduzido. An important topic in biological sequences analysis is gene finding, i.e. the identification of protein coding regions. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism. Currently, several methods combine pattern recognition with knowledge collected from training datasets or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences. The periodic pattern of DNA in protein coding regions, called three-base periodicity, has been considered proper of coding regions. Digital signal processing techniques supply a strong basis for regions identification with three-base periodicity. In this work, we present a bioinformatics pipeline, basic concepts of the genomic identification and digital signal processing methods used for protein coding regions identification. We introduce a new method for identification of these regions, based on a newly proposed transform, called Modified Morlet Transform. We present some obtained experimental results from synthetic and real DNA sequences. The main contributions consist of the bioinformatics pipeline development for genoma projects and the creation of a method for protein coding regions identification where the three-base periodicity is latent. The method presents superior performance and important advantages in comparison to traditional method based on the short time Fourier transform. 2005-10-19 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.teses.usp.br/teses/disponiveis/45/45134/tde-05062007-115359/ por info:eu-repo/semantics/openAccess Universidade de São Paulo Ciência da Computação USP BR reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo instacron:USP |