Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
Orientador: Claudia Maria Bauzer Medeiros === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1 GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Inglês |
Published: |
[s.n.]
2013
|
Subjects: | |
Online Access: | GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640 |
id |
ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-275640 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Inglês |
format |
Others
|
sources |
NDLTD |
topic |
Sistemas de informação gerencial - Controle de qualidade Banco de dados Metadados Framework (Programa de computador) Recuperação da informação Management information systems - Quality control Databases Metadata Framework (Computer program) Information retrieval |
spellingShingle |
Sistemas de informação gerencial - Controle de qualidade Banco de dados Metadados Framework (Programa de computador) Recuperação da informação Management information systems - Quality control Databases Metadata Framework (Computer program) Information retrieval Gonzales Malaverri, Joana Esther, 1981- Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
description |
Orientador: Claudia Maria Bauzer Medeiros === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1
GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297 (MD5)
Previous issue date: 2013 === Resumo: Qualidade dos dados é um problema recorrente em todos os domínios da ciência. Os experimentos analisam e manipulam uma grande quantidade de conjuntos de dados gerando novos dados para serem (re) utilizados por outros experimentos. A base para a obtenção de bons resultados científicos está fortemente associada ao grau de qualidade de tais da- dos. No entanto, os dados utilizados nos experimentos são manipulados por uma diversa variedade de usuários, os quais visam interesses diferentes de pesquisa, utilizando seus próprios vocabulários, metodologias de trabalho, modelos, e necessidades de amostragem. Considerando este cenário, um desafio em ciência da computação é oferecer soluções que auxiliem aos cientistas na avaliação da qualidade dos seus dados. Diferentes esforços têm sido propostos abordando a avaliação de qualidade. Alguns trabalhos salientam que os atributos de proveniência dos dados poderiam ser utilizados para avaliar qualidade. No entanto, a maioria destas iniciativas aborda a avaliação de um atributo de qualidade específico, frequentemente focando em valores atômicos de dados. Isto reduz a aplicabilidade destas abordagens. Apesar destes esforços, há uma necessidade de novas soluções que os cientistas possam adotar para avaliar o quão bons seus dados são. Nesta pesquisa de doutorado, apresentamos uma abordagem para lidar com este problema, a qual explora a noção de proveniência de dados. Ao contrário de outras abordagens, nossa proposta combina os atributos de qualidade especificados dentro de um contexto pelos especialistas e os metadados que descrevem a proveniência de um conjunto de dados. As principais contribuições deste trabalho são: (i) a especificação de um framework que aproveita a proveniência dos dados para obter informação de qualidade, (ii) uma metodologia associada a este framework que descreve os procedimentos para apoiar a avaliação da qualidade, (iii) a proposta de dois modelos diferentes de proveniência que possibilitem a captura das informações de proveniência, para cenários fixos e extensíveis, e (iv) a validação dos itens (i) a (iii), com suas discussões via estudos de caso em agricultura e biodiversidade === Abstract: Data quality is a recurrent concern in all scientific domains. Experiments analyze and manipulate several kinds of datasets, and generate data to be (re)used by other experiments. The basis for obtaining good scientific results is highly associated with the degree of quality of such datasets. However, data involved with the experiments are manipulated by a wide range of users, with distinct research interests, using their own vocabularies, work methodologies, models, and sampling needs. Given this scenario, a challenge in computer science is to come up with solutions that help scientists to assess the quality of their data. Different efforts have been proposed addressing the estimation of quality. Some of these efforts outline that data provenance attributes should be used to evaluate quality. However, most of these initiatives address the evaluation of a specific quality attribute, frequently focusing on atomic data values, thereby reducing the applicability of these approaches. Taking this scenario into account, there is a need for new solutions that scientists can adopt to assess how good their data are. In this PhD research, we present an approach to attack this problem based on the notion of data provenance. Unlike other similar approaches, our proposal combines quality attributes specified within a context by specialists and metadata on the provenance of a data set. The main contributions of this work are: (i) the specification of a framework that takes advantage of data provenance to derive quality information; (ii) a methodology associated with this framework that outlines the procedures to support the assessment of quality; (iii) the proposal of two different provenance models to capture provenance information, for fixed and extensible scenarios; and (iv) validation of items (i) through (iii), with their discussion via case studies in agriculture and biodiversity === Doutorado === Ciência da Computação === Doutora em Ciência da Computação |
author2 |
UNIVERSIDADE ESTADUAL DE CAMPINAS |
author_facet |
UNIVERSIDADE ESTADUAL DE CAMPINAS Gonzales Malaverri, Joana Esther, 1981- |
author |
Gonzales Malaverri, Joana Esther, 1981- |
author_sort |
Gonzales Malaverri, Joana Esther, 1981- |
title |
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
title_short |
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
title_full |
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
title_fullStr |
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
title_full_unstemmed |
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência |
title_sort |
supporting data quality assessment in escience = a provenance based approach = apoio à avaliação da qualidade de dados em escience: uma abordagem baseada em proveniência |
publisher |
[s.n.] |
publishDate |
2013 |
url |
GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640 |
work_keys_str_mv |
AT gonzalesmalaverrijoanaesther1981 supportingdataqualityassessmentinescienceaprovenancebasedapproachapoioaavaliacaodaqualidadededadosemescienceumaabordagembaseadaemproveniencia AT gonzalesmalaverrijoanaesther1981 apoioaavaliacaodaqualidadededadosemescienceumaabordagembaseadaemproveniencia |
_version_ |
1718883334757548032 |
spelling |
ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-2756402019-01-21T21:21:52Z Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência Apoio à avaliação da qualidade de dados em eScience : uma abordagem baseada em proveniência Gonzales Malaverri, Joana Esther, 1981- UNIVERSIDADE ESTADUAL DE CAMPINAS Medeiros, Claudia Maria Bauzer, 1954- Oliveira, Juliano Lopes de Pérez-Alcazar, José de Jesús Santanchè, André Martins, Eliane Sistemas de informação gerencial - Controle de qualidade Banco de dados Metadados Framework (Programa de computador) Recuperação da informação Management information systems - Quality control Databases Metadata Framework (Computer program) Information retrieval Orientador: Claudia Maria Bauzer Medeiros Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1 GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297 (MD5) Previous issue date: 2013 Resumo: Qualidade dos dados é um problema recorrente em todos os domínios da ciência. Os experimentos analisam e manipulam uma grande quantidade de conjuntos de dados gerando novos dados para serem (re) utilizados por outros experimentos. A base para a obtenção de bons resultados científicos está fortemente associada ao grau de qualidade de tais da- dos. No entanto, os dados utilizados nos experimentos são manipulados por uma diversa variedade de usuários, os quais visam interesses diferentes de pesquisa, utilizando seus próprios vocabulários, metodologias de trabalho, modelos, e necessidades de amostragem. Considerando este cenário, um desafio em ciência da computação é oferecer soluções que auxiliem aos cientistas na avaliação da qualidade dos seus dados. Diferentes esforços têm sido propostos abordando a avaliação de qualidade. Alguns trabalhos salientam que os atributos de proveniência dos dados poderiam ser utilizados para avaliar qualidade. No entanto, a maioria destas iniciativas aborda a avaliação de um atributo de qualidade específico, frequentemente focando em valores atômicos de dados. Isto reduz a aplicabilidade destas abordagens. Apesar destes esforços, há uma necessidade de novas soluções que os cientistas possam adotar para avaliar o quão bons seus dados são. Nesta pesquisa de doutorado, apresentamos uma abordagem para lidar com este problema, a qual explora a noção de proveniência de dados. Ao contrário de outras abordagens, nossa proposta combina os atributos de qualidade especificados dentro de um contexto pelos especialistas e os metadados que descrevem a proveniência de um conjunto de dados. As principais contribuições deste trabalho são: (i) a especificação de um framework que aproveita a proveniência dos dados para obter informação de qualidade, (ii) uma metodologia associada a este framework que descreve os procedimentos para apoiar a avaliação da qualidade, (iii) a proposta de dois modelos diferentes de proveniência que possibilitem a captura das informações de proveniência, para cenários fixos e extensíveis, e (iv) a validação dos itens (i) a (iii), com suas discussões via estudos de caso em agricultura e biodiversidade Abstract: Data quality is a recurrent concern in all scientific domains. Experiments analyze and manipulate several kinds of datasets, and generate data to be (re)used by other experiments. The basis for obtaining good scientific results is highly associated with the degree of quality of such datasets. However, data involved with the experiments are manipulated by a wide range of users, with distinct research interests, using their own vocabularies, work methodologies, models, and sampling needs. Given this scenario, a challenge in computer science is to come up with solutions that help scientists to assess the quality of their data. Different efforts have been proposed addressing the estimation of quality. Some of these efforts outline that data provenance attributes should be used to evaluate quality. However, most of these initiatives address the evaluation of a specific quality attribute, frequently focusing on atomic data values, thereby reducing the applicability of these approaches. Taking this scenario into account, there is a need for new solutions that scientists can adopt to assess how good their data are. In this PhD research, we present an approach to attack this problem based on the notion of data provenance. Unlike other similar approaches, our proposal combines quality attributes specified within a context by specialists and metadata on the provenance of a data set. The main contributions of this work are: (i) the specification of a framework that takes advantage of data provenance to derive quality information; (ii) a methodology associated with this framework that outlines the procedures to support the assessment of quality; (iii) the proposal of two different provenance models to capture provenance information, for fixed and extensible scenarios; and (iv) validation of items (i) through (iii), with their discussion via case studies in agriculture and biodiversity Doutorado Ciência da Computação Doutora em Ciência da Computação 2013 2018-08-23T01:02:06Z 2018-08-23T01:02:06Z 2013-06-05T00:00:00Z info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640 Inglês info:eu-repo/semantics/openAccess 59 f. : il. application/octet-stream [s.n.] Universidade Estadual de Campinas. Instituto de Computação Programa de Pós-Graduação em Ciência da Computação reponame:Repositório Institucional da Unicamp instname:Universidade Estadual de Campinas instacron:UNICAMP |