Uma estratégia genérica para casamento aproximado de instâncias

Casamento aproximado de instâncias é um problema central em muitos processos de gerenciamento de dados, tais como integração de dados, data cleaning e consulta aproximada. O principal objetivo de casamento aproximado é determinar se duas instâncias representam o mesmo objeto do mundo real. Para valo...

Full description

Bibliographic Details
Main Author:	Dorneles, Carina Friedrich
Other Authors:	Heuser, Carlos Alberto
Format:	Others
Language:	Portuguese
Published:	2007
Subjects:	Armazenamento : Dados Consulta : Similaridade
Online Access:	http://hdl.handle.net/10183/6431

id	ndltd-IBICT-oai-www.lume.ufrgs.br-10183-6431
record_format	oai_dc
spelling	ndltd-IBICT-oai-www.lume.ufrgs.br-10183-64312019-01-22T01:23:30Z Uma estratégia genérica para casamento aproximado de instâncias Dorneles, Carina Friedrich Heuser, Carlos Alberto Silva, Altigran da Armazenamento : Dados Consulta : Similaridade Casamento aproximado de instâncias é um problema central em muitos processos de gerenciamento de dados, tais como integração de dados, data cleaning e consulta aproximada. O principal objetivo de casamento aproximado é determinar se duas instâncias representam o mesmo objeto do mundo real. Para valores atômicos, diversas funções de similaridade têm sido definidas, que geralmente são dependentes do domínio de valores. Por outro lado, casamento de valores agregados, como tuplas ou árvores XML, ainda é um problema importante. Neste cenário, dois problemas podem ser identificados. O primeiro diz respeito a como os resultados gerados por diferentes funções de similaridade devem ser combinados em um escore único, ou para um escore normalizado. Funções individuais geralmente geram escores que não são comparáveis, pode-se obter diferentes distribuições a partir de cada função. Isto significa que não existe uma forma simples de combinar escores gerados por funções de similaridade distintas usando uma medida simples, em casamento de agregados. Nesta tese, a proposta é, ao invés de utilizar os escores originalmente gerados pelas funções de similaridade, aplicar um método para estimar a precisão dos resultados de cada função, e usar esta precisão estimada como um escore ajustado. Através deste método, a proposta apresentada nesta tese envolve duas contribuições a este problema. Primeiro, é possível permitir que o usuário especifique valores de ponto de corte (thresholds) que sejam significativos, usando para isso um valor de precisão ajustada como um escore de similaridade Além disso, usando o escore ajustado, são obtidos resultados mais precisos em um processo de casamento aproximado de agregados. O segundo problema, surge quando os escores são combinados em casamento de agregados, e diz respeito à função de similaridade utilizada para combinar os valores. Particularmente, um agregado pode ser estruturado de diferentes maneiras, tais como tupla, conjunto e lista. O processo de combinação usado em cada caso deve ser distinto, a fim de se alcançar resultados mais exatos. Entretanto, não é claro como escores de similaridade individuais podem ser combinados para calcular, apropriadamente, escores para um agregado. O processo de combinação deveria ser distinto em cada caso. A contribuição apresentada para este problema é a definição de funções de similaridade específicas para cada tipo de agregado, dependendo da estruturação. Palavras-chave: Similaridade, funções de similaridade, casamento de instâncias, revocação e precisão. 2007-06-06T18:56:39Z 2006 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/doctoralThesis http://hdl.handle.net/10183/6431 000529987 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Armazenamento : Dados Consulta : Similaridade
spellingShingle	Armazenamento : Dados Consulta : Similaridade Dorneles, Carina Friedrich Uma estratégia genérica para casamento aproximado de instâncias
description	Casamento aproximado de instâncias é um problema central em muitos processos de gerenciamento de dados, tais como integração de dados, data cleaning e consulta aproximada. O principal objetivo de casamento aproximado é determinar se duas instâncias representam o mesmo objeto do mundo real. Para valores atômicos, diversas funções de similaridade têm sido definidas, que geralmente são dependentes do domínio de valores. Por outro lado, casamento de valores agregados, como tuplas ou árvores XML, ainda é um problema importante. Neste cenário, dois problemas podem ser identificados. O primeiro diz respeito a como os resultados gerados por diferentes funções de similaridade devem ser combinados em um escore único, ou para um escore normalizado. Funções individuais geralmente geram escores que não são comparáveis, pode-se obter diferentes distribuições a partir de cada função. Isto significa que não existe uma forma simples de combinar escores gerados por funções de similaridade distintas usando uma medida simples, em casamento de agregados. Nesta tese, a proposta é, ao invés de utilizar os escores originalmente gerados pelas funções de similaridade, aplicar um método para estimar a precisão dos resultados de cada função, e usar esta precisão estimada como um escore ajustado. Através deste método, a proposta apresentada nesta tese envolve duas contribuições a este problema. Primeiro, é possível permitir que o usuário especifique valores de ponto de corte (thresholds) que sejam significativos, usando para isso um valor de precisão ajustada como um escore de similaridade Além disso, usando o escore ajustado, são obtidos resultados mais precisos em um processo de casamento aproximado de agregados. O segundo problema, surge quando os escores são combinados em casamento de agregados, e diz respeito à função de similaridade utilizada para combinar os valores. Particularmente, um agregado pode ser estruturado de diferentes maneiras, tais como tupla, conjunto e lista. O processo de combinação usado em cada caso deve ser distinto, a fim de se alcançar resultados mais exatos. Entretanto, não é claro como escores de similaridade individuais podem ser combinados para calcular, apropriadamente, escores para um agregado. O processo de combinação deveria ser distinto em cada caso. A contribuição apresentada para este problema é a definição de funções de similaridade específicas para cada tipo de agregado, dependendo da estruturação. Palavras-chave: Similaridade, funções de similaridade, casamento de instâncias, revocação e precisão.
author2	Heuser, Carlos Alberto
author_facet	Heuser, Carlos Alberto Dorneles, Carina Friedrich
author	Dorneles, Carina Friedrich
author_sort	Dorneles, Carina Friedrich
title	Uma estratégia genérica para casamento aproximado de instâncias
title_short	Uma estratégia genérica para casamento aproximado de instâncias
title_full	Uma estratégia genérica para casamento aproximado de instâncias
title_fullStr	Uma estratégia genérica para casamento aproximado de instâncias
title_full_unstemmed	Uma estratégia genérica para casamento aproximado de instâncias
title_sort	uma estratégia genérica para casamento aproximado de instâncias
publishDate	2007
url	http://hdl.handle.net/10183/6431
work_keys_str_mv	AT dornelescarinafriedrich umaestrategiagenericaparacasamentoaproximadodeinstancias
_version_	1718935340660555776

Uma estratégia genérica para casamento aproximado de instâncias

Similar Items