Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et...
Main Author: | |
---|---|
Language: | ENG |
Published: |
Université de Nantes
2009
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00475917 http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00475917 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004759172013-01-07T18:05:10Z http://tel.archives-ouvertes.fr/tel-00475917 http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf Clustering-based Approximate Answering of Query Result in Large and Distributed Databases Bechchi, Mounir [INFO:INFO_HC] Computer Science/Human-Computer Interaction Base de données relationnelles Résumés de données (Le modèle SAINTETIQ) Classification des résultats de requêtes Classification distribuée Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap- pelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l'ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résul- tats dont les propriétés sont voisines. L'utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l'intéressent et en écarter les autres. Les résultats expérimentaux montrent que l'al- gorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l'algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l'algo- rithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d'algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l'ensemble des données distribuées, sans accéder aux données d'origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l'approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l'approche centralisée. 2009-09-15 ENG PhD thesis Université de Nantes |
collection |
NDLTD |
language |
ENG |
sources |
NDLTD |
topic |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction Base de données relationnelles Résumés de données (Le modèle SAINTETIQ) Classification des résultats de requêtes Classification distribuée |
spellingShingle |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction Base de données relationnelles Résumés de données (Le modèle SAINTETIQ) Classification des résultats de requêtes Classification distribuée Bechchi, Mounir Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
description |
Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap- pelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l'ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résul- tats dont les propriétés sont voisines. L'utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l'intéressent et en écarter les autres. Les résultats expérimentaux montrent que l'al- gorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l'algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l'algo- rithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d'algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l'ensemble des données distribuées, sans accéder aux données d'origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l'approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l'approche centralisée. |
author |
Bechchi, Mounir |
author_facet |
Bechchi, Mounir |
author_sort |
Bechchi, Mounir |
title |
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
title_short |
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
title_full |
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
title_fullStr |
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
title_full_unstemmed |
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases |
title_sort |
clustering-based approximate answering of query result in large and distributed databases |
publisher |
Université de Nantes |
publishDate |
2009 |
url |
http://tel.archives-ouvertes.fr/tel-00475917 http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf |
work_keys_str_mv |
AT bechchimounir clusteringbasedapproximateansweringofqueryresultinlargeanddistributeddatabases |
_version_ |
1716398041242533888 |