Aplicação de ETL para a integração de dados com ênfase em big data na área de saúde pública

Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-30T15:55:34Z No. of bitstreams: 1 Dissertação_Mestrado_Clicia(1).pdf: 2228201 bytes, checksum: d990a114eac5a988c57ba6d1e22e8f99 (MD5) === Made available in DSpace on 2016-05-30T15:55:34Z (GMT). No. of bitstreams: 1 Dissertação_Mestrado_...

Full description

Bibliographic Details
Main Author: Pinto, Clícia dos Santos
Other Authors: Boratto, Murilo do Carmo
Language:Portuguese
Published: Instituto de Matemática. Departamento de Ciência da Computação 2016
Subjects:
ETL
Online Access:http://repositorio.ufba.br/ri/handle/ri/19307
Description
Summary:Submitted by Santos Davilene (davilenes@ufba.br) on 2016-05-30T15:55:34Z No. of bitstreams: 1 Dissertação_Mestrado_Clicia(1).pdf: 2228201 bytes, checksum: d990a114eac5a988c57ba6d1e22e8f99 (MD5) === Made available in DSpace on 2016-05-30T15:55:34Z (GMT). No. of bitstreams: 1 Dissertação_Mestrado_Clicia(1).pdf: 2228201 bytes, checksum: d990a114eac5a988c57ba6d1e22e8f99 (MD5) === Transformar os dados armazenados em informações úteis tem sido um desafio cada vez maior e mais complexo a medida em que o volume de dados produzidos todos os dias aumenta. Nos últimos anos, conceitos e tecnologias de Big Data têm sido amplamente utilizados como solução para o gerenciamento de grandes quantidades de dados em diferentes domínios. A proposta deste trabalho diz respeito `a utiliza¸c˜ao de técnicas de ETL (extração,transformação e carga) no desenvolvimento de um módulo de pré-processamento para o pareamento probabilístico de registros em bases de dados na área de Saúde Pública. A utiliza¸c˜ao da ferramenta de processamento distribuído do Spark garante o tratamento adequado para o contexto de Big Data em que esta pesquisa está inserida, gerando respostas em tempo hábil.