Summary: | Os métodos existentes para a previsão da posição de átomos de hidrogênio em proteínas são todos baseados na simulação computacional de modelos construídos a partir de características físicas e (ou) químicas das moléculas. A abordagem proposta neste trabalho faz uso de técnicas inteligentes para a predição da posição de átomos de hidrogênio contidos em grupos hidroxilas (OH) pertencentes à cadeias laterais dos aminoácidos serina, treonina e tirosina. Estas técnicas inteligentes são utilizadas em duas fases para a solução do problema proposto: o preprocessamento dos dados e a predição da posição do átomo de hidrogênio. Na fase de preprocessamento, informações sobre os padrões de ligações hidrogênio existentes em moléculas de proteínas são extraídas da base PDB (Protein Data Bank) e reunidas em agrupamentos. A base de dados PDB é a principal base internacional que disponibiliza publicamente a estrutura espacial de biomoléculas, principalmente proteínas e ácidos nucléicos, cujas estruturas espacias foram determinadas através de métodos experimentais. Os padrões de ligações hidrogênio obtidos da base de dados são agrupados por similaridade através de um novo algoritimo proposto, o algoritmo de agrupamento por fusão. Este novo algoritmo de agrupamento foi criado com o propósito de tratar dados com distribuição não uniforme, isolando padrões de entrada muito diferentes da média em agrupamento separados. Após o agrupamento, os padrões de ligações hidrogênio contidos em um grupo têm suas estruturas espaciais superpostas (alinhamento das geometrias dos padrões) através de operações espaciais de translação e rotações, coordenadas pelo uso de um algoritmo genético. Na fase de predição, os padrões já superpostos contidos em cada agrupamento gerado, são utilizados para o treinamento de uma rede neural de arquitetura MLP (multi layer perceptron) para a predição da posição do átomo de hidrogênio contido no padrão. Uma parte dos padrões contidos no agrupamento não são usados para o treinamento da rede e reservados para o teste da capacidade da rede neural inferir a posição do hidrogênio após o treinamento. Para cada agrupamento é treinada uma rede individual, de forma que os parâmetros livres da rede neural sejam calibrados para os dados específicos do agrupamento para o qual a rede neural foi treinada. Após diversas alterações de metodogia ao longo dos experimentos computacionais realizados, a nova abordagem proposta mostrouse eficaz, com um bom índice de acerto na predição da posição do hidrogênio após o treino da rede neural, para padrões de ligações hidrogênio previamente superpostos em agrupamentos
===
The existing methods for the prediction of the position of hydrogen atoms in proteins are all based on computer simulation models constructed from physical and(or) chemical properties of molecules. The approach proposed in this paper makes use of intelligent techniques for clustering the patterns of hydrogen bonds by similarity, these patterns extracted from the spatial structure of protein molecules, recorded in the files of the PDB (Protein Data Bank). A new algorithm, which allows clustering of data with nonuniform distribution was developed for this purpose. To align spatialy these patterns already grouped in a cluster is used a genetic algorithm that rotates the patterns each other in a way to obtain the aligment of them. The prediction of the position of atoms of hydrogen is done by the training of a MLP (multi layer perceptron) neural network that uses as input the data of the patterns of hydrogen bond contained in a given cluster, previously aligned. The new approach proved to be effective, with a good rate of success in the prediction of the position of hydrogen atoms contained in a cluster after training the neural network
|