Construção de filogenias baseadas em genomas completos
Orientador: João Meidanis === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-16T11:01:22Z (GMT). No. of bitstreams: 1 Oliveira_KarinaZupode_M.pdf: 15064313 bytes, checksum: a46cd0b3c6eebcfc48b81920aa2232db (MD5) Previous...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
[s.n.]
2010
|
Subjects: | |
Online Access: | OLIVEIRA, Karina Zupo de. Construção de filogenias baseadas em genomas completos. 2010. 87 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275803>. Acesso em: 16 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275803 |
Summary: | Orientador: João Meidanis === Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-16T11:01:22Z (GMT). No. of bitstreams: 1
Oliveira_KarinaZupode_M.pdf: 15064313 bytes, checksum: a46cd0b3c6eebcfc48b81920aa2232db (MD5)
Previous issue date: 2010 === Resumo: Contexto: A classificação de espécies começou sendo determinada pelas características fenotípicas dos organismos. Logo que o DNA foi descoberto, o sistema de classificação passou também a utilizar-se das características genotípicas. Ao longo dos últimos anos, avanços científicos permitiram que fossem sequenciados genomas completos. A cada ano, o número de genomas completamente sequenciados aumenta, e, com isso, é cada vez maior o número de trabalhos que tentam utilizar-se do maior número possível de genes para comparar dois ou mais organismos com o objetivo de melhor entender o relacionamento entre as diversas espécies. Experimento: Este trabalho executa comparações de pares de cromossomos de um grupo de 10 genomas completos da família Vibrionaceae e um genoma completo da bactéria Escherichia coli como externo ao grupo. As homologias entre as proteínas são determinadas através da base de famílias Protein Clusters (NCBI). A seguir, arvores ultramétricas e a classificação COG das proteínas são utilizadas para resolver as paralogias correspondentes. Após isto, as proteínas únicas, que representam os eventos de perda e ganho de genes, são eliminadas, de forma a igualar o conteúdo dos cromossomos. Tipicamente, 50% das proteínas originais do pares de organismos de mesma família 'sobrevivem" para serem utilizadas no cálculo da distância de rearranjo. Menos proteínas sobrevivem nas comparações com a bactéria externa ao grupo. A distância total é calculada pela soma do número de proteínas eliminadas e da distância de ordenação, medida através da distância de rearranjo dos cromossomos. Resultados: As comparações produziram matrizes de distâncias utilizadas para inferir árvores filogenéticas através do algoritmo Neighbor-Joining (NJ). As árvores filogenéticas encontradas mostraram-se congruentes em topologia com a árvore produzida pelo gene 16S rRNA. Isto mostra que a comparação de genomas completos é uma proposta sensata. Os desafios agora são aperfeiçoar os detalhes. O material suplementar (Apêndice A) contém uma implementação computacional dos experimentos === Abstract: Context: Species classification was originally determined by phenotypic characteristics. With the advent of DNA sequencing, the classification system started using genotypes as well. Over the last decades, scientific progress allowed complete sequencing of genomes. Each year, the number of genomes completely sequenced increases, and with it, the number of works trying to use as much genes as possible to compare two or more organisms, in order to get a better understand of the relationship between several species. Experiment: This work executes a pairwise chromosome comparison from a set of 10 complete genomes from the Vibrionaceae family and one complete Escherichia coli genome as an outgroup. In our experiment, the homologies between proteins are assessed using the Protein Clusters (NCBI) database. In the next step, paralogies are resolved using ultrametric trees and COG classification. In the sequel, the loss and gain events are treated, thus, proteins present in only one chromosome from the pair are eliminated, in order to equalize the set of families in both chromosomes. Typically, 50% of the original proteins survive in comparisons between organisms of the same family (comparisons with the outgroup yield less survivors). The total distance is calculated by adding the number of eliminated proteins with the order distance, which is measured by the rearrangement distance beetween the chromosomes. Results: Genome comparison produces distance matrices used to infer the phylogenetic trees through the Neighbor-Joining (NJ) algorithm. The phylogenetic trees generated are congruent regarding the topology with the tree inferred using the 16S rRNA gene. Also, in order to run a deeper investigation, the experiment was executed with some variations such as not resolving the paralogies using ultrametric trees or only classifying proteins using COG database. Supplemental material (Appendix A) contains the experiment computational implementation === Mestrado === Biologia Computaçional === Mestre em Ciência da Computação |
---|