Desenvolvimento das ferramentas SeedServer, para agrupamento de seqüências protéicas homólogas e U-MAGE, para propagação de ontologia funcional

=== With advances in sequencing technologies, an important contribution is the organization of secondary databases, where existing knowledge is organized based on biological information. Grouping of homologous genes and assigning terms of functional ontology involving already known genes are ways t...

Full description

Bibliographic Details
Main Author: Rafael Lucas Muniz Guedes
Other Authors: Jose Miguel Ortega
Format: Others
Language:Portuguese
Published: Universidade Federal de Minas Gerais 2013
Online Access:http://hdl.handle.net/1843/BUOS-9BNJT2
Description
Summary:=== With advances in sequencing technologies, an important contribution is the organization of secondary databases, where existing knowledge is organized based on biological information. Grouping of homologous genes and assigning terms of functional ontology involving already known genes are ways to speed the analysis of data from new sequencing. We report the development of SeedServer, U-MAGE and applications. The integration of databases and a program capable of clustering homologous proteins including sequences derived from incomplete genomes, together with validation methods and comparison of secondary structures resulted in the development of SeedServer tool. Groups of homologous sequences chosen from user interest are generated with the aid of a web interface where you can also download the grouped sequences, get taxonomy reports and estimate the origin of the gene in question by determining the lowest common ancestor. The program SeedServer after being tested and evaluated was then used in a study of amino acid heterotrophy by forming groups of homologous enzymes present in the essential amino acids biosynthetic pathways, showing a scenario called the Great Genomic Deletion in different groups of eukaryotes and prokaryotes. Following that event may be the loss of assimilative capacity of nitrogen, an essential component in the formation of amino acids. Phylogenetic studies showed a higher rate of mutation among the enzymes remaining in incomplete pathways when compared with others from complete pathways. Additionally, to improve the quality of functional annotation of protein sequences, we created the tool called U-MAGE (UniRef50 Matrices for Annotation of Gene Ontology Entries) that uses as the basis of propagation of functional ontology terms the coverage between sequences within a UniRef50 organized in matrices. The U-MAGE demonstrated a significant qualitative improvement in functional ontology annotation of various organisms. Both tools SeedServer and U-MAGE contribute to the acceleration of the information spread from known proteins, a challenge to the current Bioinformatics to face the intense production of new sequences === Com o avanço das tecnologias de seqüenciamento, a organização das bases de dados secundárias é uma contribuição importante, nas quais o conhecimento existente é organizado com base em informações biológicas. Agrupamento de genes homólogos e a atribuição de termos de ontologia funcional envolvendo genes já conhecidos sãoformas de acelerar a análise de dados de novos seqüenciamentos. Neste trabalho relatamos o desenvolvimento do SeedServer, U-MAGE e aplicações. A integração de bancos de dados e programa agrupador de proteínas homólogas capazes de incluir seqüências provenientes de genomas incompletos, conjuntamente com metodologias de validação e comparação de estruturas secundárias resultou no desenvolvimento da ferramenta SeedServer. Grupos de homólogos criados a partir de seqüências de interesse do usuário são gerados com auxílio de uma interface web onde também é possível descarregar as seqüências agrupadas, obter relatórios com taxonomia completa e estimar a origem do gene em questão através da determinação do ancestral comum mais recente. O programa SeedServer, após ser testado e avaliado foi então utilizado em um estudo da heterotrofia de aminoácidos através da formação de grupos de homólogos das enzimas presentes nas vias biossintéticas de aminoácidos essenciais, demonstrando um quadro denominado de Grande Deleção Genômica em diferentes grupos de eucariotos e procariotos. A esse evento pode se suceder a perda da capacidade de assimilação de nitrogênio, componente essencial na formação dos aminoácidos. Estudos filogenéticos mostraram uma maior taxa de mutação dentre as enzimas remanescentes de vias incompletas quando comparadas com outras de vias completas. Adicionalmente, para melhorar a qualidade da anotação funcional de seqüências protéicas, foi criada a ferramenta denominada UMAGE (UniRef50 Matrices for Annotation of Gene Ontology Entries) que utiliza como base de propagação de termos de ontologia funcional, matrizes de recobrimento entre seqüências de mesmo UniRef50. O U-MAGE demonstrou uma melhora qualitativa significativa na anotação de ontologia funcional de diversos organismos. As duas ferramentas SeedServer e U-MAGE contribuem para a aceleração da propagação de informação de proteínas conhecidas, um desafio atual imposto à Bioinformática para fazer frente à intensa produção de novas seqüências