Summary: | A comparação de genomas é uma importante tarefa na qual a bioinformática pode ser aplicada, uma vez que ela permite a identificação de genes patogênicos, o que, por sua vez, pode auxiliar a combater ou a prevenir o surgimento de doenças. A partir da comparação de genomas, também é possível realizar a análise filogenética, que permite entender as relações evolutivas entre diferentes organismos. Em genomas de bactérias, essa análise geralmente é realizada com base no gene 16S rRNA. Entretanto, apesar de ser amplamente utilizado, filogenias com base nesse gene podem ter dificuldades para diferenciar organismos muito próximos evolutivamente. Essa importância da comparação de genomas e a necessidade de uma metodologia que permita distinguir organismos evolutivamente próximos na análise filogenética motivaram este trabalho, que teve como objetivo implementar ferramentas computacionais para identificar genes homólogos em genomas e, com base nesses genes, gerar filogenias e analisar se é possível distinguir os organismos evolutivamente próximos nessas filogenias. Para tanto, as ferramentas desenvolvidas para identificação de genes homólogos recebem resultados de alinhamentos e os filtram, de modo que dois genes são considerados homólogos se o alinhamento entre eles satisfizer os limiares definidos. Após a identificação das famílias de genes homólogos, tabelas são geradas com informações a respeito dos genes homólogos em cada genoma e, com base nessas tabelas, é possível gerar matrizes de distância e utilizar métodos de agrupamento hierárquico para a geração da filogenia ou realizar alinhamentos múltiplos com os genes identificados para posterior reconstrução filogenética. Além disso, também é possível representar os genes e famílias de genes homólogos por meio de um grafo, que pode auxiliar na escolha dos limiares para filtrar os alinhamentos. Para demonstrar e analisar a aplicabilidade das ferramentas desenvolvidas e das abordagens adotadas, experimentos foram realizados utilizando genomas de bactérias do gênero Xanthomonas, que contém um grande grupo de bactérias que causam doenças em plantas. Os resultados obtidos foram então comparados com filogenias de referência e com resultados de outros experimentos realizados. Essas comparações demonstraram que as famílias de genes homólogos podem ser úteis para distinguir genomas de organismos muito próximos evolutivamente, apesar de que essa abordagem apresentou dificuldades para separar os grupos de genomas mais distantes. Em contrapartida, na filogenia gerada a partir da região 16S rRNA, foi possível diferenciar esses organismos mais distantes, mas não foi possível distinguir os organismos muito próximos. Por fim, os experimentos realizados fornecem indícios de que as ferramentas desenvolvidas e as abordagens adotadas podem ser úteis para diferenciar genomas muito próximos evolutivamente de outros procariotos além das bactérias estudadas neste trabalho
===
Genome comparison is an important task on which bioinformatics can be used because it allows the identification of pathogen genes which can aid the combat of diseases and to avoid the emerging of new ones. Genome comparison also allows the phylogenetic analysis which provides the understanding of evolutional relations of different organisms. In bacterial genomes, this analysis is commonly based on 16S rRNA gene. Unfortunately, it can present some difficulties to distinguish closely related organisms. This importance of genome comparison and the necessity of a methodology to distinguish organisms that are closely related motivated this study, which aimed the development of computational tools to identify homologous genes in genomes, to use these genes to reconstruct phylogenies and to analyze if it is possible to distinguish closely related organisms on these phylogenies. To achieve this purpose, the developed tools to identify homologous genes receive the alignments results and filter it, such that two genes are homologous if their alignment satisfies the thresholds. After the identification of homologous gene families, the tools generates tables with information about the homologous genes presents in each genome and with these tables it is possible to create distance matrix to be used by hierarchical clustering methods to generate phylogenies or it is possible to perform multiple alignments with the identified genes to accomplish a phylogenetic reconstruction. Besides that, it is possible to represent the genes and homologous gene families in a graph, which can aid the choice of the thresholds to filter the alignments. To demonstrate and analyze the applicability of the developed tools and the approaches chosen in this study, experiments were performed using genomes of the bacterial genus Xanthomonas, which include a group of phytopathogenic bacteria. The results obtained were compared with reference phylogenies and with results of other experiments. These comparisons showed that homologous gene families can be used to differentiate closely related organisms, despite the fact that it presented difficulties to distinguish the groups of genomes that were evolutionarily far from each other. On the other hand, the phylogeny based on 16S rRNA region allows to distinguish the groups of genomes that were distant, but it was not possible to differentiate closely related organisms. As a conclusion, the experiments performed give pieces of evidence that the developed tools and the approaches adopted can be useful to distinguish genomes of closely related organisms of other prokaryotes besides the bacterias considered in this study
|