Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência

Orientador: Claudia Maria Bauzer Medeiros === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1 GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297...

Full description

Bibliographic Details
Main Author: Gonzales Malaverri, Joana Esther, 1981-
Other Authors: UNIVERSIDADE ESTADUAL DE CAMPINAS
Format: Others
Language:Inglês
Published: [s.n.] 2013
Subjects:
Online Access:GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640
id ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-275640
record_format oai_dc
collection NDLTD
language Inglês
format Others
sources NDLTD
topic Sistemas de informação gerencial - Controle de qualidade
Banco de dados
Metadados
Framework (Programa de computador)
Recuperação da informação
Management information systems - Quality control
Databases
Metadata
Framework (Computer program)
Information retrieval
spellingShingle Sistemas de informação gerencial - Controle de qualidade
Banco de dados
Metadados
Framework (Programa de computador)
Recuperação da informação
Management information systems - Quality control
Databases
Metadata
Framework (Computer program)
Information retrieval
Gonzales Malaverri, Joana Esther, 1981-
Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
description Orientador: Claudia Maria Bauzer Medeiros === Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação === Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1 GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297 (MD5) Previous issue date: 2013 === Resumo: Qualidade dos dados é um problema recorrente em todos os domínios da ciência. Os experimentos analisam e manipulam uma grande quantidade de conjuntos de dados gerando novos dados para serem (re) utilizados por outros experimentos. A base para a obtenção de bons resultados científicos está fortemente associada ao grau de qualidade de tais da- dos. No entanto, os dados utilizados nos experimentos são manipulados por uma diversa variedade de usuários, os quais visam interesses diferentes de pesquisa, utilizando seus próprios vocabulários, metodologias de trabalho, modelos, e necessidades de amostragem. Considerando este cenário, um desafio em ciência da computação é oferecer soluções que auxiliem aos cientistas na avaliação da qualidade dos seus dados. Diferentes esforços têm sido propostos abordando a avaliação de qualidade. Alguns trabalhos salientam que os atributos de proveniência dos dados poderiam ser utilizados para avaliar qualidade. No entanto, a maioria destas iniciativas aborda a avaliação de um atributo de qualidade específico, frequentemente focando em valores atômicos de dados. Isto reduz a aplicabilidade destas abordagens. Apesar destes esforços, há uma necessidade de novas soluções que os cientistas possam adotar para avaliar o quão bons seus dados são. Nesta pesquisa de doutorado, apresentamos uma abordagem para lidar com este problema, a qual explora a noção de proveniência de dados. Ao contrário de outras abordagens, nossa proposta combina os atributos de qualidade especificados dentro de um contexto pelos especialistas e os metadados que descrevem a proveniência de um conjunto de dados. As principais contribuições deste trabalho são: (i) a especificação de um framework que aproveita a proveniência dos dados para obter informação de qualidade, (ii) uma metodologia associada a este framework que descreve os procedimentos para apoiar a avaliação da qualidade, (iii) a proposta de dois modelos diferentes de proveniência que possibilitem a captura das informações de proveniência, para cenários fixos e extensíveis, e (iv) a validação dos itens (i) a (iii), com suas discussões via estudos de caso em agricultura e biodiversidade === Abstract: Data quality is a recurrent concern in all scientific domains. Experiments analyze and manipulate several kinds of datasets, and generate data to be (re)used by other experiments. The basis for obtaining good scientific results is highly associated with the degree of quality of such datasets. However, data involved with the experiments are manipulated by a wide range of users, with distinct research interests, using their own vocabularies, work methodologies, models, and sampling needs. Given this scenario, a challenge in computer science is to come up with solutions that help scientists to assess the quality of their data. Different efforts have been proposed addressing the estimation of quality. Some of these efforts outline that data provenance attributes should be used to evaluate quality. However, most of these initiatives address the evaluation of a specific quality attribute, frequently focusing on atomic data values, thereby reducing the applicability of these approaches. Taking this scenario into account, there is a need for new solutions that scientists can adopt to assess how good their data are. In this PhD research, we present an approach to attack this problem based on the notion of data provenance. Unlike other similar approaches, our proposal combines quality attributes specified within a context by specialists and metadata on the provenance of a data set. The main contributions of this work are: (i) the specification of a framework that takes advantage of data provenance to derive quality information; (ii) a methodology associated with this framework that outlines the procedures to support the assessment of quality; (iii) the proposal of two different provenance models to capture provenance information, for fixed and extensible scenarios; and (iv) validation of items (i) through (iii), with their discussion via case studies in agriculture and biodiversity === Doutorado === Ciência da Computação === Doutora em Ciência da Computação
author2 UNIVERSIDADE ESTADUAL DE CAMPINAS
author_facet UNIVERSIDADE ESTADUAL DE CAMPINAS
Gonzales Malaverri, Joana Esther, 1981-
author Gonzales Malaverri, Joana Esther, 1981-
author_sort Gonzales Malaverri, Joana Esther, 1981-
title Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
title_short Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
title_full Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
title_fullStr Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
title_full_unstemmed Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência
title_sort supporting data quality assessment in escience = a provenance based approach = apoio à avaliação da qualidade de dados em escience: uma abordagem baseada em proveniência
publisher [s.n.]
publishDate 2013
url GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018.
http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640
work_keys_str_mv AT gonzalesmalaverrijoanaesther1981 supportingdataqualityassessmentinescienceaprovenancebasedapproachapoioaavaliacaodaqualidadededadosemescienceumaabordagembaseadaemproveniencia
AT gonzalesmalaverrijoanaesther1981 apoioaavaliacaodaqualidadededadosemescienceumaabordagembaseadaemproveniencia
_version_ 1718883334757548032
spelling ndltd-IBICT-oai-repositorio.unicamp.br-REPOSIP-2756402019-01-21T21:21:52Z Supporting data quality assessment in eScience = a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência Apoio à avaliação da qualidade de dados em eScience : uma abordagem baseada em proveniência Gonzales Malaverri, Joana Esther, 1981- UNIVERSIDADE ESTADUAL DE CAMPINAS Medeiros, Claudia Maria Bauzer, 1954- Oliveira, Juliano Lopes de Pérez-Alcazar, José de Jesús Santanchè, André Martins, Eliane Sistemas de informação gerencial - Controle de qualidade Banco de dados Metadados Framework (Programa de computador) Recuperação da informação Management information systems - Quality control Databases Metadata Framework (Computer program) Information retrieval Orientador: Claudia Maria Bauzer Medeiros Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação Made available in DSpace on 2018-08-23T01:02:06Z (GMT). No. of bitstreams: 1 GonzalesMalaverri_JoanaEsther_D.pdf: 4107657 bytes, checksum: f285cdfecf84c5d5cc51db0249035297 (MD5) Previous issue date: 2013 Resumo: Qualidade dos dados é um problema recorrente em todos os domínios da ciência. Os experimentos analisam e manipulam uma grande quantidade de conjuntos de dados gerando novos dados para serem (re) utilizados por outros experimentos. A base para a obtenção de bons resultados científicos está fortemente associada ao grau de qualidade de tais da- dos. No entanto, os dados utilizados nos experimentos são manipulados por uma diversa variedade de usuários, os quais visam interesses diferentes de pesquisa, utilizando seus próprios vocabulários, metodologias de trabalho, modelos, e necessidades de amostragem. Considerando este cenário, um desafio em ciência da computação é oferecer soluções que auxiliem aos cientistas na avaliação da qualidade dos seus dados. Diferentes esforços têm sido propostos abordando a avaliação de qualidade. Alguns trabalhos salientam que os atributos de proveniência dos dados poderiam ser utilizados para avaliar qualidade. No entanto, a maioria destas iniciativas aborda a avaliação de um atributo de qualidade específico, frequentemente focando em valores atômicos de dados. Isto reduz a aplicabilidade destas abordagens. Apesar destes esforços, há uma necessidade de novas soluções que os cientistas possam adotar para avaliar o quão bons seus dados são. Nesta pesquisa de doutorado, apresentamos uma abordagem para lidar com este problema, a qual explora a noção de proveniência de dados. Ao contrário de outras abordagens, nossa proposta combina os atributos de qualidade especificados dentro de um contexto pelos especialistas e os metadados que descrevem a proveniência de um conjunto de dados. As principais contribuições deste trabalho são: (i) a especificação de um framework que aproveita a proveniência dos dados para obter informação de qualidade, (ii) uma metodologia associada a este framework que descreve os procedimentos para apoiar a avaliação da qualidade, (iii) a proposta de dois modelos diferentes de proveniência que possibilitem a captura das informações de proveniência, para cenários fixos e extensíveis, e (iv) a validação dos itens (i) a (iii), com suas discussões via estudos de caso em agricultura e biodiversidade Abstract: Data quality is a recurrent concern in all scientific domains. Experiments analyze and manipulate several kinds of datasets, and generate data to be (re)used by other experiments. The basis for obtaining good scientific results is highly associated with the degree of quality of such datasets. However, data involved with the experiments are manipulated by a wide range of users, with distinct research interests, using their own vocabularies, work methodologies, models, and sampling needs. Given this scenario, a challenge in computer science is to come up with solutions that help scientists to assess the quality of their data. Different efforts have been proposed addressing the estimation of quality. Some of these efforts outline that data provenance attributes should be used to evaluate quality. However, most of these initiatives address the evaluation of a specific quality attribute, frequently focusing on atomic data values, thereby reducing the applicability of these approaches. Taking this scenario into account, there is a need for new solutions that scientists can adopt to assess how good their data are. In this PhD research, we present an approach to attack this problem based on the notion of data provenance. Unlike other similar approaches, our proposal combines quality attributes specified within a context by specialists and metadata on the provenance of a data set. The main contributions of this work are: (i) the specification of a framework that takes advantage of data provenance to derive quality information; (ii) a methodology associated with this framework that outlines the procedures to support the assessment of quality; (iii) the proposal of two different provenance models to capture provenance information, for fixed and extensible scenarios; and (iv) validation of items (i) through (iii), with their discussion via case studies in agriculture and biodiversity Doutorado Ciência da Computação Doutora em Ciência da Computação 2013 2018-08-23T01:02:06Z 2018-08-23T01:02:06Z 2013-06-05T00:00:00Z info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis GONZALES MALAVERRI, Joana Esther. Supporting data quality assessment in eScience: a provenance based approach = Apoio à avaliação da qualidade de dados em eScience: uma abordagem baseada em proveniência. 2013. 59 f. Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/275640>. Acesso em: 22 ago. 2018. http://repositorio.unicamp.br/jspui/handle/REPOSIP/275640 Inglês info:eu-repo/semantics/openAccess 59 f. : il. application/octet-stream [s.n.] Universidade Estadual de Campinas. Instituto de Computação Programa de Pós-Graduação em Ciência da Computação reponame:Repositório Institucional da Unicamp instname:Universidade Estadual de Campinas instacron:UNICAMP