Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /

Orientador: José Luiz Rybarczyk Filho === Coorientador: Ney Lemke === Banca: Manuela Leal da Silva === Banca: Laurita dos Santos === Resumo: Comunidades microbianas desempenham papéis cruciais em todos ecosistemas da Terra, uma vez que metabolizam compostos essenciais. Essa característica torna impo...

Full description

Bibliographic Details
Main Author: Andrighetti, Tahila.
Other Authors: Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências (Campus de Botucatu).
Format: Others
Language:Portuguese
Published: Botucatu, 2015
Subjects:
Online Access:http://hdl.handle.net/11449/132017
id ndltd-UNESP-oai-www.athena.biblioteca.unesp.br-UEP01-000851881
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Nucleotídeos.
Bioinformática.
Entropia.
Genoma humano.
Micro-organismos.
Seqüenciamento de nucleotídeo.
Nucleotide sequence.
spellingShingle Nucleotídeos.
Bioinformática.
Entropia.
Genoma humano.
Micro-organismos.
Seqüenciamento de nucleotídeo.
Nucleotide sequence.
Andrighetti, Tahila.
Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
description Orientador: José Luiz Rybarczyk Filho === Coorientador: Ney Lemke === Banca: Manuela Leal da Silva === Banca: Laurita dos Santos === Resumo: Comunidades microbianas desempenham papéis cruciais em todos ecosistemas da Terra, uma vez que metabolizam compostos essenciais. Essa característica torna importantes alvos de pesquisas em diversas áreas como médica, ambiental, alimentícia e biotecnológica. Entretanto, somente 1% de todas espécies de micro-organismos conhecidos podem ser cultivadas in vitro, dificultando o estudo de suas funções e de sua classificação taxonômica. Com o surgimento de novas tecnologias de sequenciamento, o genoma inteiro de micro-organismos de um habitat pode ser experimentalmente extraído, mas em pequenos fragmentos (¡1500 pb), tornando o processamento dos dados um grande desafio. As ferramentas de análise de metagenômica mais utilizadas classificam as sequências por homologia. Entretanto, o tempo computacional aumenta exponencialmente conforme o tamanho dos fragmentos diminuem. Isso mostra uma necessidade evidente de métodos alternativos que possam analisar dados de metagenômica de maneira rápida e precisa. Esse estudo propõe um novo método de identificação de sequências de bactérias que analisa esses dados. Os genomas de 2164 linhagens de bactérias foram obtidos pelo GenBank e fragmentados em grupos de teste e controle. Cada grupo foi aleatóriamente fragmentado em sequências de 64, 128, 256, 512, 1024, 2048 e 4096 pares de base. As medidas de organização de sequências aplicadas nos fragmentos foram: conteúdo GC, abundância de dinucleotídeos e entropias de dipletes, tripletes e tetrapletes. Foram calculados a média e o desvio padrão dos valores das sequências controle para cada espécie, gênero e família de bactéria. Foram feitas combinações de medidas para classificar as sequências em famílias, gêneros e espécies. A performance da metodologia foi determinada por medidas de sensibilidade, especificidade, precição e média harmônica para conjuntos de... === Abstract: Microbial communities play a crucial role in all ecosystems on Earth since they metabolize essential compounds. Given this relevant role they are investigated in Medicine, Biotechnology, Ecology, Food Sciences among other fields. However, only 1% of all known micro-organisms species can be cultivated in vitro. The unravelling of their functions and taxonomic classification demands the development of new approaches. With the advent of new sequencing strategies, the entire genome of microrganisms on a given habitat can be experimentally extracted, but the fragments obtained are small (<1500 bps), and the data processing remains a huge challenge. The most used metagenomic analysis tools classify the sequences by homology. However, the computational time grows exponentially as the read length decreases. There is an evident need for alternative methods that can analyze metagenomic data quickly and accurately. This study proposes a new bacteria sequences identification method to be used in metagenomic data. The genomes of 2164 bacterial strains were obtained from the GenBank and distributed into test and control sets. Each group was randomly fragmented into sequences of 64, 128, 256, 512, 1024, 2048, and 4096 base pair. The sequences organization measures applied in the reads were: GC content, dinucleotide abundance and diplets, triplets and tetraplets entropy. The average and standard deviation of the control sequences values of each species, genus and families of bacteria were calculated. Combinations of genomic signatures and entropy were performed allowing classifying bacteria sequences into family, genus and species. The performance of the proposed methodology was determined by measuring sensitivity, specificity, accuracy and harmonic mean for the test set. The results indicated that the GC content presented the best performance among the signatures investigated. We also considered combinations of features, the combination considering GC ... === Mestre
author2 Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências (Campus de Botucatu).
author_facet Universidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências (Campus de Botucatu).
Andrighetti, Tahila.
author Andrighetti, Tahila.
author_sort Andrighetti, Tahila.
title Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
title_short Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
title_full Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
title_fullStr Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
title_full_unstemmed Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
title_sort ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /
publisher Botucatu,
publishDate 2015
url http://hdl.handle.net/11449/132017
work_keys_str_mv AT andrighettitahila ferramentacomputacionalparaidentificacaodemicroorganismoscombaseemassinaturasgenomicas
_version_ 1718683027485229056
spelling ndltd-UNESP-oai-www.athena.biblioteca.unesp.br-UEP01-0008518812018-06-01T05:11:15ZtextporTL/UNESPAndrighetti, Tahila.Ferramenta computacional para identificação de micro-organismos com base em assinaturas genômicas /Botucatu,201553 f.Orientador: José Luiz Rybarczyk FilhoCoorientador: Ney LemkeBanca: Manuela Leal da SilvaBanca: Laurita dos SantosResumo: Comunidades microbianas desempenham papéis cruciais em todos ecosistemas da Terra, uma vez que metabolizam compostos essenciais. Essa característica torna importantes alvos de pesquisas em diversas áreas como médica, ambiental, alimentícia e biotecnológica. Entretanto, somente 1% de todas espécies de micro-organismos conhecidos podem ser cultivadas in vitro, dificultando o estudo de suas funções e de sua classificação taxonômica. Com o surgimento de novas tecnologias de sequenciamento, o genoma inteiro de micro-organismos de um habitat pode ser experimentalmente extraído, mas em pequenos fragmentos (¡1500 pb), tornando o processamento dos dados um grande desafio. As ferramentas de análise de metagenômica mais utilizadas classificam as sequências por homologia. Entretanto, o tempo computacional aumenta exponencialmente conforme o tamanho dos fragmentos diminuem. Isso mostra uma necessidade evidente de métodos alternativos que possam analisar dados de metagenômica de maneira rápida e precisa. Esse estudo propõe um novo método de identificação de sequências de bactérias que analisa esses dados. Os genomas de 2164 linhagens de bactérias foram obtidos pelo GenBank e fragmentados em grupos de teste e controle. Cada grupo foi aleatóriamente fragmentado em sequências de 64, 128, 256, 512, 1024, 2048 e 4096 pares de base. As medidas de organização de sequências aplicadas nos fragmentos foram: conteúdo GC, abundância de dinucleotídeos e entropias de dipletes, tripletes e tetrapletes. Foram calculados a média e o desvio padrão dos valores das sequências controle para cada espécie, gênero e família de bactéria. Foram feitas combinações de medidas para classificar as sequências em famílias, gêneros e espécies. A performance da metodologia foi determinada por medidas de sensibilidade, especificidade, precição e média harmônica para conjuntos de...Abstract: Microbial communities play a crucial role in all ecosystems on Earth since they metabolize essential compounds. Given this relevant role they are investigated in Medicine, Biotechnology, Ecology, Food Sciences among other fields. However, only 1% of all known micro-organisms species can be cultivated in vitro. The unravelling of their functions and taxonomic classification demands the development of new approaches. With the advent of new sequencing strategies, the entire genome of microrganisms on a given habitat can be experimentally extracted, but the fragments obtained are small (<1500 bps), and the data processing remains a huge challenge. The most used metagenomic analysis tools classify the sequences by homology. However, the computational time grows exponentially as the read length decreases. There is an evident need for alternative methods that can analyze metagenomic data quickly and accurately. This study proposes a new bacteria sequences identification method to be used in metagenomic data. The genomes of 2164 bacterial strains were obtained from the GenBank and distributed into test and control sets. Each group was randomly fragmented into sequences of 64, 128, 256, 512, 1024, 2048, and 4096 base pair. The sequences organization measures applied in the reads were: GC content, dinucleotide abundance and diplets, triplets and tetraplets entropy. The average and standard deviation of the control sequences values of each species, genus and families of bacteria were calculated. Combinations of genomic signatures and entropy were performed allowing classifying bacteria sequences into family, genus and species. The performance of the proposed methodology was determined by measuring sensitivity, specificity, accuracy and harmonic mean for the test set. The results indicated that the GC content presented the best performance among the signatures investigated. We also considered combinations of features, the combination considering GC ...Sistema requerido: Adobe Acrobat ReaderNucleotídeos.Bioinformática.Entropia.Genoma humano.Micro-organismos.Seqüenciamento de nucleotídeo.Nucleotide sequence.MestreUniversidade Estadual Paulista "Júlio de Mesquita Filho" Instituto de Biociências (Campus de Botucatu).http://hdl.handle.net/11449/132017