Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento

Made available in DSpace on 2015-04-14T14:49:45Z (GMT). No. of bitstreams: 1 438289.pdf: 4232980 bytes, checksum: 881bd64c55df7a95a458dac98379df88 (MD5) Previous issue date: 2012-03-22 === One of the most important problems in Structural Bioinformatics is to understand how the information coded in...

Full description

Bibliographic Details
Main Author: Dall"agno, Karina Cristina da Motta
Other Authors: Souza, Osmar Norberto de
Format: Others
Language:Portuguese
Published: Pontif?cia Universidade Cat?lica do Rio Grande do Sul 2015
Subjects:
Online Access:http://tede2.pucrs.br/tede2/handle/tede/5168
id ndltd-IBICT-oai-tede2.pucrs.br-tede-5168
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic INFORM?TICA
BIOLOGIA COMPUTACIONAL
MINERA??O DE DADOS (INFORM?TICA)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle INFORM?TICA
BIOLOGIA COMPUTACIONAL
MINERA??O DE DADOS (INFORM?TICA)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Dall"agno, Karina Cristina da Motta
Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
description Made available in DSpace on 2015-04-14T14:49:45Z (GMT). No. of bitstreams: 1 438289.pdf: 4232980 bytes, checksum: 881bd64c55df7a95a458dac98379df88 (MD5) Previous issue date: 2012-03-22 === One of the most important problems in Structural Bioinformatics is to understand how the information coded in linear sequence amino acids, or primary structure, is translated into the three-dimensional structure of a protein. Many algorithms proposed solutions to this complex problem of NP-complete class. One of them is the CReF method (Central Residue Fragment-based) which makes prediction of approximate 3-D structure of proteins and polypeptides. The method uses data mining techniques to group data structures, showing good secondary structure prediction, good performance at low machine cost, but has problems in the prediction of turns and loops regions and usability. Valuing the different characteristics of CReF and seeking to evolve it, this work proposes improvements to CReF. After the initial stage of understanding the tool and making changes to turn it executable on the current state of data banks and support tools, two categories of improvements to make were identified. The technical improvements aimed to automate CReF, adapting it to the environment and emphasizing usability. In the method‟s improvements variations on the amount of groups were tested for data mining with the Expectation Maximization algorithm in Weka. Tests indicated that the best results for the initial conformation were for four and six groups, hence we decided to allow the user to select the amount of groups. A new mapping of the data in the Ramachandran plot indicated some problems that had to be fixed. In the analysis of data mining results, we decided that groups in regions not allowed would be discarded. The new version of CReF generated by the implementation of these improvements standardized the method of secondary structure prediction to use Porter. As a consequence, the rules of selection of data mining groups to represent each amino acids have been changed and extended. The new version has the same initial performance of CReF in prediction and execution, however, the problem of correct predictions of turns and loops remained. This problem was addressed through a refinement protocol, based on simulations by the molecular dynamics method, which presented a significant result for the target protein 1ZDD. === Um dos principais desafios da Bioinform?tica Estrutural ? entender como a informa??o decodificada em uma sequ?ncia linear de amino?cidos, ou estrutura prim?ria de uma prote?na, possibilita a forma??o de sua estrutura tridimensional. Muitos algoritmos buscam propor solu??es para o problema complexo da classe NP-completo. Dentre eles, est? o m?todo CReF (Central Residue Fragment-based method) que realiza a predi??o da estrutura 3D aproximada de prote?nas ou polipept?dios. O m?todo usa t?cnicas de minera??o de dados para agrupar dados de estruturas, apresentando boa predi??o de estruturas secund?rias, bom desempenho em m?quina de baixo custo, mas enfrenta problemas na predi??o das regi?es de voltas e al?as e na usabilidade. Valorizando as caracter?sticas diferenciadas do m?todo e buscando sua evolu??o, este trabalho prop?s-se a realizar melhorias no CReF. Ap?s uma etapa inicial de entendimento e adapta??es para tornar a ferramenta execut?vel na situa??o atual dos bancos de dados e ferramentas de apoio, foram identificadas duas categorias de melhorias. As melhorias t?cnicas tiveram por objetivo automatizar a ferramenta, adapt?-la ao ambiente e ao usu?rio enfatizando usabilidade. Para melhorias no m?todo realizaram-se testes com varia??o na quantidade de grupos identificados na etapa de minera??o de dados com o algoritmo Expectation Maximization (EM) no Weka. Os testes indicaram que as melhores conforma??es iniciais eram obtidas com quatro e seis grupos, assim, optou-se por permitir ao usu?rio a escolha dos grupos a considerar. Um novo mapeamento do mapa de Ramachandran indicou ajustes que foram corrigidos e decidiu-se descartar grupos identificados nas regi?es n?o permitidas na an?lise do resultado da minera??o de dados. A nova vers?o do CReF, gerada pela implementa??o dessas melhorias, tamb?m padronizou o m?todo de predi??o de estrutura secund?ria, passando a utilizar o m?todo Porter. Como consequ?ncia, as regras para escolha do grupo resultante da minera??o a representar cada amino?cido foram adaptadas e ampliadas para atender novas situa??es. A nova vers?o manteve o desempenho de predi??o e execu??o iniciais do CReF, entretanto, manteve o problema das voltas e al?as. Este problema de otimiza??o das regi?es de voltas e al?as foi endere?ado por meio do desenho e aplica??o de um protocolo de refinamento, baseado em simula??es pelo m?todo da din?mica molecular, o qual apresentou um resultado expressivo para a prote?na alvo de c?digo PDB 1ZDD.
author2 Souza, Osmar Norberto de
author_facet Souza, Osmar Norberto de
Dall"agno, Karina Cristina da Motta
author Dall"agno, Karina Cristina da Motta
author_sort Dall"agno, Karina Cristina da Motta
title Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
title_short Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
title_full Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
title_fullStr Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
title_full_unstemmed Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento
title_sort um estudo sobre a predi??o da estrutura 3d aproximada de prote?nas utilizando o m?todo cref com refinamento
publisher Pontif?cia Universidade Cat?lica do Rio Grande do Sul
publishDate 2015
url http://tede2.pucrs.br/tede2/handle/tede/5168
work_keys_str_mv AT dallagnokarinacristinadamotta umestudosobreaprediodaestrutura3daproximadadeprotenasutilizandoomtodocrefcomrefinamento
_version_ 1718953459222315008
spelling ndltd-IBICT-oai-tede2.pucrs.br-tede-51682019-01-22T02:38:10Z Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento Dall"agno, Karina Cristina da Motta Souza, Osmar Norberto de INFORM?TICA BIOLOGIA COMPUTACIONAL MINERA??O DE DADOS (INFORM?TICA) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Made available in DSpace on 2015-04-14T14:49:45Z (GMT). No. of bitstreams: 1 438289.pdf: 4232980 bytes, checksum: 881bd64c55df7a95a458dac98379df88 (MD5) Previous issue date: 2012-03-22 One of the most important problems in Structural Bioinformatics is to understand how the information coded in linear sequence amino acids, or primary structure, is translated into the three-dimensional structure of a protein. Many algorithms proposed solutions to this complex problem of NP-complete class. One of them is the CReF method (Central Residue Fragment-based) which makes prediction of approximate 3-D structure of proteins and polypeptides. The method uses data mining techniques to group data structures, showing good secondary structure prediction, good performance at low machine cost, but has problems in the prediction of turns and loops regions and usability. Valuing the different characteristics of CReF and seeking to evolve it, this work proposes improvements to CReF. After the initial stage of understanding the tool and making changes to turn it executable on the current state of data banks and support tools, two categories of improvements to make were identified. The technical improvements aimed to automate CReF, adapting it to the environment and emphasizing usability. In the method‟s improvements variations on the amount of groups were tested for data mining with the Expectation Maximization algorithm in Weka. Tests indicated that the best results for the initial conformation were for four and six groups, hence we decided to allow the user to select the amount of groups. A new mapping of the data in the Ramachandran plot indicated some problems that had to be fixed. In the analysis of data mining results, we decided that groups in regions not allowed would be discarded. The new version of CReF generated by the implementation of these improvements standardized the method of secondary structure prediction to use Porter. As a consequence, the rules of selection of data mining groups to represent each amino acids have been changed and extended. The new version has the same initial performance of CReF in prediction and execution, however, the problem of correct predictions of turns and loops remained. This problem was addressed through a refinement protocol, based on simulations by the molecular dynamics method, which presented a significant result for the target protein 1ZDD. Um dos principais desafios da Bioinform?tica Estrutural ? entender como a informa??o decodificada em uma sequ?ncia linear de amino?cidos, ou estrutura prim?ria de uma prote?na, possibilita a forma??o de sua estrutura tridimensional. Muitos algoritmos buscam propor solu??es para o problema complexo da classe NP-completo. Dentre eles, est? o m?todo CReF (Central Residue Fragment-based method) que realiza a predi??o da estrutura 3D aproximada de prote?nas ou polipept?dios. O m?todo usa t?cnicas de minera??o de dados para agrupar dados de estruturas, apresentando boa predi??o de estruturas secund?rias, bom desempenho em m?quina de baixo custo, mas enfrenta problemas na predi??o das regi?es de voltas e al?as e na usabilidade. Valorizando as caracter?sticas diferenciadas do m?todo e buscando sua evolu??o, este trabalho prop?s-se a realizar melhorias no CReF. Ap?s uma etapa inicial de entendimento e adapta??es para tornar a ferramenta execut?vel na situa??o atual dos bancos de dados e ferramentas de apoio, foram identificadas duas categorias de melhorias. As melhorias t?cnicas tiveram por objetivo automatizar a ferramenta, adapt?-la ao ambiente e ao usu?rio enfatizando usabilidade. Para melhorias no m?todo realizaram-se testes com varia??o na quantidade de grupos identificados na etapa de minera??o de dados com o algoritmo Expectation Maximization (EM) no Weka. Os testes indicaram que as melhores conforma??es iniciais eram obtidas com quatro e seis grupos, assim, optou-se por permitir ao usu?rio a escolha dos grupos a considerar. Um novo mapeamento do mapa de Ramachandran indicou ajustes que foram corrigidos e decidiu-se descartar grupos identificados nas regi?es n?o permitidas na an?lise do resultado da minera??o de dados. A nova vers?o do CReF, gerada pela implementa??o dessas melhorias, tamb?m padronizou o m?todo de predi??o de estrutura secund?ria, passando a utilizar o m?todo Porter. Como consequ?ncia, as regras para escolha do grupo resultante da minera??o a representar cada amino?cido foram adaptadas e ampliadas para atender novas situa??es. A nova vers?o manteve o desempenho de predi??o e execu??o iniciais do CReF, entretanto, manteve o problema das voltas e al?as. Este problema de otimiza??o das regi?es de voltas e al?as foi endere?ado por meio do desenho e aplica??o de um protocolo de refinamento, baseado em simula??es pelo m?todo da din?mica molecular, o qual apresentou um resultado expressivo para a prote?na alvo de c?digo PDB 1ZDD. 2015-04-14T14:49:45Z 2012-05-11 2012-03-22 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis DALL"AGNO, Karina Cristina da Motta. Um estudo sobre a predi??o da estrutura 3D aproximada de prote?nas utilizando o m?todo CReF com refinamento. 2012. 133 f. Disserta??o (Mestrado em Ci?ncia da Computa??o) - Pontif?cia Universidade Cat?lica do Rio Grande do Sul, Porto Alegre, 2012. http://tede2.pucrs.br/tede2/handle/tede/5168 por 1974996533081274470 500 600 1946639708616176246 info:eu-repo/semantics/openAccess application/pdf Pontif?cia Universidade Cat?lica do Rio Grande do Sul Programa de P?s-Gradua??o em Ci?ncia da Computa??o PUCRS BR Faculdade de Inform?ca reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul instacron:PUC_RS