Summary: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016. === Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-02-14T20:06:16Z
No. of bitstreams: 1
2016_IasminiVirgíniaOliveiraLima.pdf: 9288284 bytes, checksum: 60f129cce5f057223b8532bc67380557 (MD5) === Approved for entry into archive by Raquel Viana(raquelviana@bce.unb.br) on 2017-03-13T18:57:10Z (GMT) No. of bitstreams: 1
2016_IasminiVirgíniaOliveiraLima.pdf: 9288284 bytes, checksum: 60f129cce5f057223b8532bc67380557 (MD5) === Made available in DSpace on 2017-03-13T18:57:10Z (GMT). No. of bitstreams: 1
2016_IasminiVirgíniaOliveiraLima.pdf: 9288284 bytes, checksum: 60f129cce5f057223b8532bc67380557 (MD5) === Projetos em Bioinformática são geralmente executados como workflows científicos. Os biólogos frequentemente podem executar o mesmo workflow diversas vezes com diferentes parâmetros. Estas execuções podem gerar um grande volume de arquivos com diferentes formatos, que precisam ser armazenados para futuras execuções. Dentre diversos sistemas de armazenamento de dados apresentados na literatura, novos modelos de bancos de dados têm sido definidos para armazenar grandes volumes de dados, os bancos de dados NoSQL (Not Only SQL), que surgiram da necessidade de uma alta escalabilidade e de um desempenho superior quando o volume de dados é muito grande. Nesse contexto, é proposta a análise do impacto da replicação de dados quando se utiliza bancos de dados NoSQL para o armazenamento dos diferentes formatos de arquivos resultantes da execução de workflows de Bioinformática. Foram executados três workflows de Bioinformática envolvendo diferentes formatos de dados, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra e MongoDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de inserção e extração dos dados são mínimos comparados aos tempos de execução dos workflows e portanto, os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de dados biológicos. === Projects in bioinformatics are generally executed as scientific workflows. The biologists often perform the same workflow several times with different parameters. These executions can generate a large volume of files with different formats, which need to be stored for future executions. Among several data storage systems presented in the literature, new database models have been defined to store large volumes of data, the NoSQL databases (Not Only SQL), which arose from the need for high scalability and superior performance when the data volume is too large. In this context, it is proposed to analyze the impact of data replication when using NoSQL databases for the storage of the different file formats resulting from the execution of bioinformatics workflows. Three bioinformatics workflows involving different data formats were executed, which were used for testing the NoSQL Cassandra and MongoDB databases, and then an analysis of those executions and tests is presented. The results show that the data insertion and extraction times are minimal compared to the execution times of the workflows, and therefore, the NoSQL databases have proved to be a good option for the storage and management of biological data.
|