Automatizando o processo de estimativa de revocação e precisão de funções de similaridade

Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores bool...

Full description

Bibliographic Details
Main Author:	Santos, Juliana Bonato dos
Other Authors:	Heuser, Carlos Alberto
Format:	Others
Language:	Portuguese
Published:	2009
Subjects:	Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision
Online Access:	http://hdl.handle.net/10183/15889

id	ndltd-IBICT-oai-lume.ufrgs.br-10183-15889
record_format	oai_dc
spelling	ndltd-IBICT-oai-lume.ufrgs.br-10183-158892018-10-21T16:53:44Z Automatizando o processo de estimativa de revocação e precisão de funções de similaridade Automatizing the process of estimating recall and precision of similarity functions Santos, Juliana Bonato dos Heuser, Carlos Alberto Moreira, Viviane Pereira Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision. 2009-05-23T04:12:44Z 2008 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/15889 000691816 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection	NDLTD
language	Portuguese
format	Others
sources	NDLTD
topic	Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision
spellingShingle	Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision Santos, Juliana Bonato dos Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
description	Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. === Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision.
author2	Heuser, Carlos Alberto
author_facet	Heuser, Carlos Alberto Santos, Juliana Bonato dos
author	Santos, Juliana Bonato dos
author_sort	Santos, Juliana Bonato dos
title	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_short	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_full	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_fullStr	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_full_unstemmed	Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_sort	automatizando o processo de estimativa de revocação e precisão de funções de similaridade
publishDate	2009
url	http://hdl.handle.net/10183/15889
work_keys_str_mv	AT santosjulianabonatodos automatizandooprocessodeestimativaderevocacaoeprecisaodefuncoesdesimilaridade AT santosjulianabonatodos automatizingtheprocessofestimatingrecallandprecisionofsimilarityfunctions
_version_	1718778404332896256

Automatizando o processo de estimativa de revocação e precisão de funções de similaridade

Similar Items