Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | pt |
Published: |
Biblioteca Digitais de Teses e Dissertações da USP
2014
|
Subjects: | |
Online Access: | http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/ |
id |
ndltd-usp.br-oai-teses.usp.br-tde-10112014-110134 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-usp.br-oai-teses.usp.br-tde-10112014-1101342019-05-09T18:59:39Z Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses Methodological guidelines and statistical data validation for the construction of data warehouses Takecian, Pedro Losco análise de dados aprendizado de máquina arquitetura modular conceptual modeling data analysis data validation data warehouse data warehouse machine learning modelagem conceitual modular architecture validação de dados Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW. Data integration systems that use data warehouse (DW) architecture are becoming bigger and more difficult to manage due to the growing heterogeneity of data sources. Despite the significant advances in research and technologies, many integration projects are still too slow to generate pragmatic results. This work addresses the following question: how can the complexity of DW development for integration of heterogeneous transactional information systems be reduced? For this purpose, we present two contributions: 1) The establishment of methodological guidelines based on cycles of conceptual modeling and data analysis to drive construction of a modular data integration system. These guidelines were fundamental for reducing the development complexity of the international project Retrovirus Epidemiology Donor Study-II (REDS-II), proving suited to be applied in real systems. 2) The development of a validation method of data batches that are candidates to be incorporated into an integration system, which makes decisions based on the statistical profile of these batches, and a project of a system that enables the use of this method in DW systems context. Biblioteca Digitais de Teses e Dissertações da USP Ferreira, João Eduardo 2014-08-14 Tese de Doutorado application/pdf http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/ pt Liberar o conteúdo para acesso público. |
collection |
NDLTD |
language |
pt |
format |
Others
|
sources |
NDLTD |
topic |
análise de dados aprendizado de máquina arquitetura modular conceptual modeling data analysis data validation data warehouse data warehouse machine learning modelagem conceitual modular architecture validação de dados |
spellingShingle |
análise de dados aprendizado de máquina arquitetura modular conceptual modeling data analysis data validation data warehouse data warehouse machine learning modelagem conceitual modular architecture validação de dados Takecian, Pedro Losco Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
description |
Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW. === Data integration systems that use data warehouse (DW) architecture are becoming bigger and more difficult to manage due to the growing heterogeneity of data sources. Despite the significant advances in research and technologies, many integration projects are still too slow to generate pragmatic results. This work addresses the following question: how can the complexity of DW development for integration of heterogeneous transactional information systems be reduced? For this purpose, we present two contributions: 1) The establishment of methodological guidelines based on cycles of conceptual modeling and data analysis to drive construction of a modular data integration system. These guidelines were fundamental for reducing the development complexity of the international project Retrovirus Epidemiology Donor Study-II (REDS-II), proving suited to be applied in real systems. 2) The development of a validation method of data batches that are candidates to be incorporated into an integration system, which makes decisions based on the statistical profile of these batches, and a project of a system that enables the use of this method in DW systems context. |
author2 |
Ferreira, João Eduardo |
author_facet |
Ferreira, João Eduardo Takecian, Pedro Losco |
author |
Takecian, Pedro Losco |
author_sort |
Takecian, Pedro Losco |
title |
Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
title_short |
Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
title_full |
Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
title_fullStr |
Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
title_full_unstemmed |
Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
title_sort |
diretrizes metodológicas e validação estatística de dados para a construção de data warehouses |
publisher |
Biblioteca Digitais de Teses e Dissertações da USP |
publishDate |
2014 |
url |
http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/ |
work_keys_str_mv |
AT takecianpedrolosco diretrizesmetodologicasevalidacaoestatisticadedadosparaaconstrucaodedatawarehouses AT takecianpedrolosco methodologicalguidelinesandstatisticaldatavalidationfortheconstructionofdatawarehouses |
_version_ |
1719058253451624448 |