Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas

Made available in DSpace on 2015-12-10T14:23:05Z (GMT). No. of bitstreams: 0 Previous issue date: 2015-02-27. Added 1 bitstream(s) on 2015-12-10T14:29:19Z : No. of bitstreams: 1 000851881.pdf: 1966900 bytes, checksum: f12318e1992f89b39d28775a2373ebce (MD5) === Fundação de Amparo à Pesquisa do Esta...

Full description

Bibliographic Details
Main Author: Andrighetti, Tahila [UNESP]
Other Authors: Universidade Estadual Paulista (UNESP)
Format: Others
Language:Portuguese
Published: Universidade Estadual Paulista (UNESP) 2015
Subjects:
Online Access:http://hdl.handle.net/11449/132017
http://www.athena.biblioteca.unesp.br/exlibris/bd/cathedra/11-11-2015/000851881.pdf
Description
Summary:Made available in DSpace on 2015-12-10T14:23:05Z (GMT). No. of bitstreams: 0 Previous issue date: 2015-02-27. Added 1 bitstream(s) on 2015-12-10T14:29:19Z : No. of bitstreams: 1 000851881.pdf: 1966900 bytes, checksum: f12318e1992f89b39d28775a2373ebce (MD5) === Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) === Comunidades microbianas desempenham papéis cruciais em todos ecosistemas da Terra, uma vez que metabolizam compostos essenciais. Essa característica torna importantes alvos de pesquisas em diversas áreas como médica, ambiental, alimentícia e biotecnológica. Entretanto, somente 1% de todas espécies de micro-organismos conhecidos podem ser cultivadas in vitro, dificultando o estudo de suas funções e de sua classificação taxonômica. Com o surgimento de novas tecnologias de sequenciamento, o genoma inteiro de micro-organismos de um habitat pode ser experimentalmente extraído, mas em pequenos fragmentos (¡1500 pb), tornando o processamento dos dados um grande desafio. As ferramentas de análise de metagenômica mais utilizadas classificam as sequências por homologia. Entretanto, o tempo computacional aumenta exponencialmente conforme o tamanho dos fragmentos diminuem. Isso mostra uma necessidade evidente de métodos alternativos que possam analisar dados de metagenômica de maneira rápida e precisa. Esse estudo propõe um novo método de identificação de sequências de bactérias que analisa esses dados. Os genomas de 2164 linhagens de bactérias foram obtidos pelo GenBank e fragmentados em grupos de teste e controle. Cada grupo foi aleatóriamente fragmentado em sequências de 64, 128, 256, 512, 1024, 2048 e 4096 pares de base. As medidas de organização de sequências aplicadas nos fragmentos foram: conteúdo GC, abundância de dinucleotídeos e entropias de dipletes, tripletes e tetrapletes. Foram calculados a média e o desvio padrão dos valores das sequências controle para cada espécie, gênero e família de bactéria. Foram feitas combinações de medidas para classificar as sequências em famílias, gêneros e espécies. A performance da metodologia foi determinada por medidas de sensibilidade, especificidade, precição e média harmônica para conjuntos de... === Microbial communities play a crucial role in all ecosystems on Earth since they metabolize essential compounds. Given this relevant role they are investigated in Medicine, Biotechnology, Ecology, Food Sciences among other fields. However, only 1% of all known micro-organisms species can be cultivated in vitro. The unravelling of their functions and taxonomic classification demands the development of new approaches. With the advent of new sequencing strategies, the entire genome of microrganisms on a given habitat can be experimentally extracted, but the fragments obtained are small (<1500 bps), and the data processing remains a huge challenge. The most used metagenomic analysis tools classify the sequences by homology. However, the computational time grows exponentially as the read length decreases. There is an evident need for alternative methods that can analyze metagenomic data quickly and accurately. This study proposes a new bacteria sequences identification method to be used in metagenomic data. The genomes of 2164 bacterial strains were obtained from the GenBank and distributed into test and control sets. Each group was randomly fragmented into sequences of 64, 128, 256, 512, 1024, 2048, and 4096 base pair. The sequences organization measures applied in the reads were: GC content, dinucleotide abundance and diplets, triplets and tetraplets entropy. The average and standard deviation of the control sequences values of each species, genus and families of bacteria were calculated. Combinations of genomic signatures and entropy were performed allowing classifying bacteria sequences into family, genus and species. The performance of the proposed methodology was determined by measuring sensitivity, specificity, accuracy and harmonic mean for the test set. The results indicated that the GC content presented the best performance among the signatures investigated. We also considered combinations of features, the combination considering GC ... === FAPESP: 2013/1517-4