Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-11-30Bitstream added on 2014-06-13T19:39:00Z : No. of bitstreams: 1 jardini_t_me_sjrp.pdf: 3132731 bytes, checksum: f7d17c296de5c8631819f117979b411d (MD5) === Um dos grandes desa os e di culdades...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
Universidade Estadual Paulista (UNESP)
2014
|
Subjects: | |
Online Access: | http://hdl.handle.net/11449/98702 |
id |
ndltd-IBICT-oai-repositorio.unesp.br-11449-98702 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-repositorio.unesp.br-11449-987022018-05-23T20:30:49Z Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados Jardini, Toni [UNESP] Universidade Estadual Paulista (UNESP) Valêncio, Carlos Roberto [UNESP] Sistemas de computação Banco de dados Database Computer systems Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0 Previous issue date: 2012-11-30Bitstream added on 2014-06-13T19:39:00Z : No. of bitstreams: 1 jardini_t_me_sjrp.pdf: 3132731 bytes, checksum: f7d17c296de5c8631819f117979b411d (MD5) Um dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuário One of the great challenges and di culties to obtain knowledge from data sources is to ensure consistency and non-duplication of stored data. Many techniques and algorithms have been proposed to minimize the hard work to allow data to be analyzed and corrected. However, there are still other essential aspects for the data cleaning process success which involve many technological areas: performance, semantic and process autonomy. Against this backdrop, an data cleaning environment has been developed which includes a collec-tion of tools for automatic data analysis and processing, extensible, with multi-language semantic and learning support. The objective of this work is to propose an environment whose contributions cover problems yet explored by data cleaning scienti c community as semantic and autonomy in data cleaning process and it has, among its objectives, to re-duce user interaction in the process of analyzing and correcting data inconsistencies and duplications. Among the contributions of the developed environment, e ciency is signi -cant exhibitions, covering approximately 90% of database inconsistencies, with the 0% of false positives cases without the user interaction need 2014-06-11T19:29:41Z 2014-06-11T19:29:41Z 2012-11-30 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis JARDINI, Toni. Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados. 2012. 99 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012. http://hdl.handle.net/11449/98702 000707429 jardini_t_me_sjrp.pdf 33004153073P2 por -1 -1 info:eu-repo/semantics/openAccess 99 f. : il. color. Universidade Estadual Paulista (UNESP) Aleph reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista instacron:UNESP |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Sistemas de computação Banco de dados Database Computer systems |
spellingShingle |
Sistemas de computação Banco de dados Database Computer systems Jardini, Toni [UNESP] Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
description |
Made available in DSpace on 2014-06-11T19:29:41Z (GMT). No. of bitstreams: 0
Previous issue date: 2012-11-30Bitstream added on 2014-06-13T19:39:00Z : No. of bitstreams: 1
jardini_t_me_sjrp.pdf: 3132731 bytes, checksum: f7d17c296de5c8631819f117979b411d (MD5) === Um dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuário === One of the great challenges and di culties to obtain knowledge from data sources is to ensure consistency and non-duplication of stored data. Many techniques and algorithms have been proposed to minimize the hard work to allow data to be analyzed and corrected. However, there are still other essential aspects for the data cleaning process success which involve many technological areas: performance, semantic and process autonomy. Against this backdrop, an data cleaning environment has been developed which includes a collec-tion of tools for automatic data analysis and processing, extensible, with multi-language semantic and learning support. The objective of this work is to propose an environment whose contributions cover problems yet explored by data cleaning scienti c community as semantic and autonomy in data cleaning process and it has, among its objectives, to re-duce user interaction in the process of analyzing and correcting data inconsistencies and duplications. Among the contributions of the developed environment, e ciency is signi -cant exhibitions, covering approximately 90% of database inconsistencies, with the 0% of false positives cases without the user interaction need |
author2 |
Universidade Estadual Paulista (UNESP) |
author_facet |
Universidade Estadual Paulista (UNESP) Jardini, Toni [UNESP] |
author |
Jardini, Toni [UNESP] |
author_sort |
Jardini, Toni [UNESP] |
title |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
title_short |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
title_full |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
title_fullStr |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
title_full_unstemmed |
Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
title_sort |
ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados |
publisher |
Universidade Estadual Paulista (UNESP) |
publishDate |
2014 |
url |
http://hdl.handle.net/11449/98702 |
work_keys_str_mv |
AT jardinitoniunesp ambientedatacleaningsuporteextensivelsemanticoeautomaticoparaanaliseetransformacaodedados |
_version_ |
1718656271394013184 |