Modelos Escondidos de Markov para Classificação de Proteínas

Made available in DSpace on 2014-06-12T15:59:16Z (GMT). No. of bitstreams: 2 arquivo4987_1.pdf: 3134708 bytes, checksum: d9f9442a382a92b7f968dc2caeb95891 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2002 === A Biologia Molecular apresenta-se...

Full description

Bibliographic Details
Main Author: Mesquita Brasil Khouri, Cátia
Other Authors: Silva Guimarães, Katia
Language:Portuguese
Published: Universidade Federal de Pernambuco 2014
Subjects:
Online Access:https://repositorio.ufpe.br/handle/123456789/2561
Description
Summary:Made available in DSpace on 2014-06-12T15:59:16Z (GMT). No. of bitstreams: 2 arquivo4987_1.pdf: 3134708 bytes, checksum: d9f9442a382a92b7f968dc2caeb95891 (MD5) license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5) Previous issue date: 2002 === A Biologia Molecular apresenta-se como uma área da Biologia bastante fértil em aplicações de técnicas computacionais. A estrutura das moléculas de ácidos nucléicos e proteínas, composta de partículas alinhadas ao longo de uma cadeia, permite-lhes serem tratadas computacionalmente como seqüências de símbolos de um alfabeto finito. O estudo das similaridades existentes entre seqüências distintas de proteínas que desempenham a mesma função pode ajudar a traçar caminhos evolucionários comuns e descobrir semelhanças entre diferentes organismos, que podem levar à compreensão de famílias inteiras, contribuindo para a definição de mecanismos gerais que regem as formas de vida na Terra. Modelos Escondidos de Markov HMMs, têm-se apresentado como uma excelente técnica para a comparação de seqüências de proteínas, suportada por uma forte fundamentação matemática. Este processo de modelagem é baseado nas características estatísticas do objeto de estudo, o qual é visto como um processo aleatório parametrizado, cujos parâmetros podem ser determinados de uma maneira bem definida e precisa. No projeto de um HMM, há três problemas fundamentais a serem resolvidos: (1) Avaliação da probabilidade de uma seqüência de observações, dado o HMM; (2) Determinação da melhor seqüência de estados (a mais provável); (3) Ajuste dos parâmetros do modelo, de acordo com a seqüência observada. Neste trabalho é apresentada uma arquitetura de HMM para modelagem de famílias de proteínas, que é implementada com uma técnica de aprendizagem de máquina a qual permite que os parâmetros do modelo, tais como penalidades por remoções, inserções e substituições, sejam aprendidos durante a construção do modelo, sem a introdução de conhecimento prévio. Para aplicar a técnica, foi desenvolvida uma ferramenta para construção de um HMM capaz de classificar seqüências de proteínas. Foram realizados experimentos com três famílias de proteínas, a saber, globinas, proteinoquinases e GTPases. Para cada família, um HMM foi treinado usando um conjunto de seqüências daquela família. Os resultados dos experimentos mostram que a técnica HMM é capaz de explorar informações estatísticas contidas em uma grande quantidade de seqüências de proteínas de uma mesma família. Os HMM s construídos são capazes de distinguir com um alto grau de precisão seqüências membros de seqüências não membros das famílias modeladas