Automatizando o processo de estimativa de revocação e precisão de funções de similaridade

Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores bool...

Full description

Bibliographic Details
Main Author: Santos, Juliana Bonato dos
Other Authors: Heuser, Carlos Alberto
Format: Others
Language:Portuguese
Published: 2009
Subjects:
Online Access:http://hdl.handle.net/10183/15889
id ndltd-IBICT-oai-lume.ufrgs.br-10183-15889
record_format oai_dc
spelling ndltd-IBICT-oai-lume.ufrgs.br-10183-158892018-10-21T16:53:44Z Automatizando o processo de estimativa de revocação e precisão de funções de similaridade Automatizing the process of estimating recall and precision of similarity functions Santos, Juliana Bonato dos Heuser, Carlos Alberto Moreira, Viviane Pereira Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision. 2009-05-23T04:12:44Z 2008 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/15889 000691816 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Banco : Dados
Recuperacao : Informacao
Métricas : Similaridade
Cluster validity
Clustering
Similarity functions
Recall
Precision
spellingShingle Banco : Dados
Recuperacao : Informacao
Métricas : Similaridade
Cluster validity
Clustering
Similarity functions
Recall
Precision
Santos, Juliana Bonato dos
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
description Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. === Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision.
author2 Heuser, Carlos Alberto
author_facet Heuser, Carlos Alberto
Santos, Juliana Bonato dos
author Santos, Juliana Bonato dos
author_sort Santos, Juliana Bonato dos
title Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_short Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_full Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_fullStr Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_full_unstemmed Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
title_sort automatizando o processo de estimativa de revocação e precisão de funções de similaridade
publishDate 2009
url http://hdl.handle.net/10183/15889
work_keys_str_mv AT santosjulianabonatodos automatizandooprocessodeestimativaderevocacaoeprecisaodefuncoesdesimilaridade
AT santosjulianabonatodos automatizingtheprocessofestimatingrecallandprecisionofsimilarityfunctions
_version_ 1718778404332896256