CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Alinhamento de esquema é uma questão fundamental em aplicações de banco de dados, tais como mediação de consultas, integração de banco de dados e armazéns de dados. Nesta tese, ab...
Main Author: | |
---|---|
Other Authors: | |
Language: | English |
Published: |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
2009
|
Online Access: | http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@2 |
id |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-25609 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
English |
sources |
NDLTD |
description |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO === CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO === Alinhamento de esquema é uma questão fundamental em aplicações de banco de dados, tais como mediação de consultas, integração de banco de dados e armazéns de dados. Nesta tese, abordamos inicialmente o alinhamento de catálogos. Um catálogo é um banco de dados simples que contém informações sobre conjuntos de objetos, tipicamente classificados usando-se termos de um dado tesauro. Inicialmente apresentamos uma técnica de alinhamento baseada na noção de similaridade, que se aplica a pares de tesauros e de listas de propriedades. Descrevemos, então, o alinhamento baseado na noção de informação mútua e introduzimos variações que exploram certas heurísticas. Ao final, discutimos resultados experimentais que avaliam a precisão do método e comparam a influência das heurísticas. Após as técnicas para alinhamento de catálogos, nos concentramos no problema mais complexo de alinhamento de dois esquemas descritos em um subconjunto de OWL. Adotamos uma técnica baseada em instâncias e, por isso, assumimos que conjuntos de instâncias de cada esquema estão disponíveis. Decompomos este problema nos subproblemas de alinhamento de vocabulário e de alinhamento de conceitos. Introduzimos também condições suficientes para garantir que o alinhamento de vocabulário induz um alinhamento de conceitos correto. Em seguida, descrevemos uma técnica de alinhamento de esquemas OWL baseada no conceito de similaridade. Finalmente, avaliamos a precisão da técnica usando dados disponíveis na Web. De forma diferente de outras técnicas anteriores baseadas em instâncias, o processo de alinhamento que descrevemos usa funções de similaridade para induzir alinhamento de vocabulários de uma forma não trivial. Ilustramos, também, que a estrutura de esquemas OWL pode nos levar a mapeamentos de conceitos errados e indicamos como evitar tais problemas. === Schema matching is a fundamental issue in many database applications, such as query mediation, database integration, catalog matching and data warehousing. In this thesis, we first address hot to match catalogue schemas. A catalogue is a simple database that holds information about a set of objects, typically classified using terms taken from a given thesaurus. We introduce a matching approach, based on the notion of similarity, which applies to pairs of thesauri and to pairs of lists of properties. We then describe matchings based on cooccurrence of information and introduce variations that explore certain heuristics. Lastly, we discuss experimental results that evaluate the precision of the matchings introduced and that measure the influence of the heuristics. We then focus on the mre complex problem of matching two schemas that belong to an expressive OWL dialect. We adopt an instance-based approach and, therefore, assume that a set of instances from each schema is available. We first decompose the problem of OWL schema matching into the problem of vocabulary matching and the problem of concept mapping. We also introduce sufficient conditions guaranteeing that a vocabulary matching induces a correct concept mapping. Next, we describe OWL schema matching technique based on the notion of similarity. Lastly, we evaluate the precision of the technique using data available on the Web. Unlike any of the previous instance-based techniques, the matching process we describe uses similarity functions to induce vocabulary matchings in a non-trivial, coping with an expressive OWL dialect. We also illustrate, through a set of examples, that the structure of OWL schemas may lead to incorrect concept mappings and indicate how to avoid such pitfalls. |
author2 |
MARCO ANTONIO CASANOVA |
author_facet |
MARCO ANTONIO CASANOVA LUIZ ANDRE PORTES PAES LEME |
author |
LUIZ ANDRE PORTES PAES LEME |
spellingShingle |
LUIZ ANDRE PORTES PAES LEME CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
author_sort |
LUIZ ANDRE PORTES PAES LEME |
title |
CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
title_short |
CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
title_full |
CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
title_fullStr |
CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
title_full_unstemmed |
CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS |
title_sort |
conceptual schema matching based on similarity heuristics |
publisher |
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO |
publishDate |
2009 |
url |
http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@2 |
work_keys_str_mv |
AT luizandreportespaesleme conceptualschemamatchingbasedonsimilarityheuristics AT luizandreportespaesleme alinhamentodeesquemasconceituaisbaseadoemheuristicasdesimilaridade |
_version_ |
1718988607630344192 |
spelling |
ndltd-IBICT-oai-MAXWELL.puc-rio.br-256092019-03-01T15:41:46Z CONCEPTUAL SCHEMA MATCHING BASED ON SIMILARITY HEURISTICS ALINHAMENTO DE ESQUEMAS CONCEITUAIS BASEADO EM HEURÍSTICAS DE SIMILARIDADE LUIZ ANDRE PORTES PAES LEME MARCO ANTONIO CASANOVA MARCO ANTONIO CASANOVA RUY LUIZ MILIDIU MARCO ANTONIO CASANOVA MARCO ANTONIO CASANOVA MARCO ANTONIO CASANOVA ANTONIO LUZ FURTADO PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO Alinhamento de esquema é uma questão fundamental em aplicações de banco de dados, tais como mediação de consultas, integração de banco de dados e armazéns de dados. Nesta tese, abordamos inicialmente o alinhamento de catálogos. Um catálogo é um banco de dados simples que contém informações sobre conjuntos de objetos, tipicamente classificados usando-se termos de um dado tesauro. Inicialmente apresentamos uma técnica de alinhamento baseada na noção de similaridade, que se aplica a pares de tesauros e de listas de propriedades. Descrevemos, então, o alinhamento baseado na noção de informação mútua e introduzimos variações que exploram certas heurísticas. Ao final, discutimos resultados experimentais que avaliam a precisão do método e comparam a influência das heurísticas. Após as técnicas para alinhamento de catálogos, nos concentramos no problema mais complexo de alinhamento de dois esquemas descritos em um subconjunto de OWL. Adotamos uma técnica baseada em instâncias e, por isso, assumimos que conjuntos de instâncias de cada esquema estão disponíveis. Decompomos este problema nos subproblemas de alinhamento de vocabulário e de alinhamento de conceitos. Introduzimos também condições suficientes para garantir que o alinhamento de vocabulário induz um alinhamento de conceitos correto. Em seguida, descrevemos uma técnica de alinhamento de esquemas OWL baseada no conceito de similaridade. Finalmente, avaliamos a precisão da técnica usando dados disponíveis na Web. De forma diferente de outras técnicas anteriores baseadas em instâncias, o processo de alinhamento que descrevemos usa funções de similaridade para induzir alinhamento de vocabulários de uma forma não trivial. Ilustramos, também, que a estrutura de esquemas OWL pode nos levar a mapeamentos de conceitos errados e indicamos como evitar tais problemas. Schema matching is a fundamental issue in many database applications, such as query mediation, database integration, catalog matching and data warehousing. In this thesis, we first address hot to match catalogue schemas. A catalogue is a simple database that holds information about a set of objects, typically classified using terms taken from a given thesaurus. We introduce a matching approach, based on the notion of similarity, which applies to pairs of thesauri and to pairs of lists of properties. We then describe matchings based on cooccurrence of information and introduce variations that explore certain heuristics. Lastly, we discuss experimental results that evaluate the precision of the matchings introduced and that measure the influence of the heuristics. We then focus on the mre complex problem of matching two schemas that belong to an expressive OWL dialect. We adopt an instance-based approach and, therefore, assume that a set of instances from each schema is available. We first decompose the problem of OWL schema matching into the problem of vocabulary matching and the problem of concept mapping. We also introduce sufficient conditions guaranteeing that a vocabulary matching induces a correct concept mapping. Next, we describe OWL schema matching technique based on the notion of similarity. Lastly, we evaluate the precision of the technique using data available on the Web. Unlike any of the previous instance-based techniques, the matching process we describe uses similarity functions to induce vocabulary matchings in a non-trivial, coping with an expressive OWL dialect. We also illustrate, through a set of examples, that the structure of OWL schemas may lead to incorrect concept mappings and indicate how to avoid such pitfalls. 2009-03-23 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@1 http://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=25609@2 eng info:eu-repo/semantics/openAccess PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO PPG EM INFORMÁTICA PUC-Rio BR reponame:Repositório Institucional da PUC_RIO instname:Pontifícia Universidade Católica do Rio de Janeiro instacron:PUC_RIO |