Summary: | Made available in DSpace on 2014-06-12T15:59:16Z (GMT). No. of bitstreams: 2
arquivo4987_1.pdf: 3134708 bytes, checksum: d9f9442a382a92b7f968dc2caeb95891 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2002 === A Biologia Molecular apresenta-se como uma área da Biologia bastante fértil em
aplicações de técnicas computacionais. A estrutura das moléculas de ácidos nucléicos e proteínas,
composta de partículas alinhadas ao longo de uma cadeia, permite-lhes serem tratadas
computacionalmente como seqüências de símbolos de um alfabeto finito. O estudo das
similaridades existentes entre seqüências distintas de proteínas que desempenham a mesma
função pode ajudar a traçar caminhos evolucionários comuns e descobrir semelhanças entre
diferentes organismos, que podem levar à compreensão de famílias inteiras, contribuindo para a
definição de mecanismos gerais que regem as formas de vida na Terra.
Modelos Escondidos de Markov HMMs, têm-se apresentado como uma excelente
técnica para a comparação de seqüências de proteínas, suportada por uma forte fundamentação
matemática. Este processo de modelagem é baseado nas características estatísticas do objeto de
estudo, o qual é visto como um processo aleatório parametrizado, cujos parâmetros podem ser
determinados de uma maneira bem definida e precisa. No projeto de um HMM, há três problemas
fundamentais a serem resolvidos: (1) Avaliação da probabilidade de uma seqüência de
observações, dado o HMM; (2) Determinação da melhor seqüência de estados (a mais provável);
(3) Ajuste dos parâmetros do modelo, de acordo com a seqüência observada. Neste trabalho é
apresentada uma arquitetura de HMM para modelagem de famílias de proteínas, que é
implementada com uma técnica de aprendizagem de máquina a qual permite que os parâmetros do
modelo, tais como penalidades por remoções, inserções e substituições, sejam aprendidos durante a
construção do modelo, sem a introdução de conhecimento prévio.
Para aplicar a técnica, foi desenvolvida uma ferramenta para construção de um HMM
capaz de classificar seqüências de proteínas. Foram realizados experimentos com três famílias de
proteínas, a saber, globinas, proteinoquinases e GTPases. Para cada família, um HMM foi
treinado usando um conjunto de seqüências daquela família. Os resultados dos experimentos
mostram que a técnica HMM é capaz de explorar informações estatísticas contidas em uma
grande quantidade de seqüências de proteínas de uma mesma família. Os HMM s construídos são
capazes de distinguir com um alto grau de precisão seqüências membros de seqüências não
membros das famílias modeladas
|