Automatizando o processo de estimativa de revocação e precisão de funções de similaridade
Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores bool...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
2009
|
Subjects: | |
Online Access: | http://hdl.handle.net/10183/15889 |
id |
ndltd-IBICT-oai-lume.ufrgs.br-10183-15889 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-IBICT-oai-lume.ufrgs.br-10183-158892018-10-21T16:53:44Z Automatizando o processo de estimativa de revocação e precisão de funções de similaridade Automatizing the process of estimating recall and precision of similarity functions Santos, Juliana Bonato dos Heuser, Carlos Alberto Moreira, Viviane Pereira Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision. 2009-05-23T04:12:44Z 2008 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://hdl.handle.net/10183/15889 000691816 por info:eu-repo/semantics/openAccess application/pdf reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul instacron:UFRGS |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision |
spellingShingle |
Banco : Dados Recuperacao : Informacao Métricas : Similaridade Cluster validity Clustering Similarity functions Recall Precision Santos, Juliana Bonato dos Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
description |
Os mecanismos tradicionais de consulta a bases de dados, que utilizam o critério de igualdade, têm se tornado ineficazes quando os dados armazenados possuem variações tanto ortográficas quanto de formato. Nesses casos, torna-se necessário o uso de funções de similaridade ao invés dos operadores booleanos. Os mecanismos de consulta por similaridade retornam um ranking de elementos ordenados pelo seu valor de similaridade em relação ao objeto consultado. Para delimitar os elementos desse ranking que efetivamente fazem parte do resultado pode-se utilizar um limiar de similaridade. Entretanto, a definição do limiar de similaridade adequado é complexa, visto que este valor varia de acordo com a função de similaridade usada e a semântica dos dados consultados. Uma das formas de auxiliar na definição do limiar adequado é avaliar a qualidade do resultado de consultas que utilizam funções de similaridade para diferentes limiares sobre uma amostra da coleção de dados. Este trabalho apresenta um método automático de estimativa da qualidade de funções de similaridade através de medidas de revocação e precisão computadas para diferentes limiares. Os resultados obtidos a partir da aplicação desse método podem ser utilizados como metadados e, a partir dos requisitos de uma aplicação específica, auxiliar na definição do limiar mais adequado. Este processo automático utiliza métodos de agrupamento por similaridade, bem como medidas para validar os grupos formados por esses métodos, para eliminar a intervenção humana durante a estimativa de valores de revocação e precisão. === Traditional database query mechanisms, which use the equality criterion, have become inefficient when the stored data have spelling and format variations. In such cases, it's necessary to use similarity functions instead of boolean operators. Query mechanisms that use similarity functions return a ranking of elements ordered by their score in relation to the query object. To define the relevant elements that must be returned in this ranking, a threshold value can be used. However, the definition of the appropriated threshold value is complex, because it depends on the similarity function used and the semantics of the queried data. One way to help to choose an appropriate threshold is to evaluate the quality of similarity functions results using different thresholds values on a database sample. This work presents an automatic method to estimate the quality of similarity functions through recall and precision measures computed for different thresholds. The results obtained by this method can be used as metadata and, through the requirements of an specific application, assist in setting the appropriated threshold value. This process uses clustering methods and cluster validity measures to eliminate human intervention during the process of estimating recall and precision. |
author2 |
Heuser, Carlos Alberto |
author_facet |
Heuser, Carlos Alberto Santos, Juliana Bonato dos |
author |
Santos, Juliana Bonato dos |
author_sort |
Santos, Juliana Bonato dos |
title |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
title_short |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
title_full |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
title_fullStr |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
title_full_unstemmed |
Automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
title_sort |
automatizando o processo de estimativa de revocação e precisão de funções de similaridade |
publishDate |
2009 |
url |
http://hdl.handle.net/10183/15889 |
work_keys_str_mv |
AT santosjulianabonatodos automatizandooprocessodeestimativaderevocacaoeprecisaodefuncoesdesimilaridade AT santosjulianabonatodos automatizingtheprocessofestimatingrecallandprecisionofsimilarityfunctions |
_version_ |
1718778404332896256 |