Clustering-based Approximate Answering of Query Result in Large and Distributed Databases

Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et...

Full description

Bibliographic Details
Main Author: Bechchi, Mounir
Language:ENG
Published: Université de Nantes 2009
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00475917
http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00475917
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004759172013-01-07T18:05:10Z http://tel.archives-ouvertes.fr/tel-00475917 http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf Clustering-based Approximate Answering of Query Result in Large and Distributed Databases Bechchi, Mounir [INFO:INFO_HC] Computer Science/Human-Computer Interaction Base de données relationnelles Résumés de données (Le modèle SAINTETIQ) Classification des résultats de requêtes Classification distribuée Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap- pelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l'ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résul- tats dont les propriétés sont voisines. L'utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l'intéressent et en écarter les autres. Les résultats expérimentaux montrent que l'al- gorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l'algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l'algo- rithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d'algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l'ensemble des données distribuées, sans accéder aux données d'origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l'approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l'approche centralisée. 2009-09-15 ENG PhD thesis Université de Nantes
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Base de données relationnelles
Résumés de données (Le modèle SAINTETIQ)
Classification des résultats de requêtes
Classification distribuée
spellingShingle [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Base de données relationnelles
Résumés de données (Le modèle SAINTETIQ)
Classification des résultats de requêtes
Classification distribuée
Bechchi, Mounir
Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
description Les utilisateurs des bases de données doivent faire face au problème de surcharge d'information lors de l'interrogation de leurs données, qui se traduit par un nombre de réponses trop élevé à des requêtes exploratoires. Pour remédier à ce problème, nous proposons un algorithme efficace et rapide, ap- pelé ESRA (Explore-Select-Rearrange Algorithm), qui utilise les résumés SAINTETIQ pré-calculés sur l'ensemble des données pour regrouper les réponses à une requête utilisateur en un ensemble de classes (ou résumés) organisées hiérarchiquement. Chaque classe décrit un sous-ensemble de résul- tats dont les propriétés sont voisines. L'utilisateur pourra ainsi explorer la hiérarchie pour localiser les données qui l'intéressent et en écarter les autres. Les résultats expérimentaux montrent que l'al- gorithme ESRA est efficace et fournit des classes bien formées (i.e., leur nombre reste faible et elles sont bien séparées). Cependant, le modèle SAINTETIQ, utilisé par l'algorithme ESRA, exige que les données soient disponibles sur le serveur des résumés. Cette hypothèse rend inapplicable l'algo- rithme ESRA dans des environnements distribués où il est souvent impossible ou peu souhaitable de rassembler toutes les données sur un même site. Pour remédier à ce problème, nous proposons une collection d'algorithmes qui combinent deux résumés générés localement et de manière autonome sur deux sites distincts pour en produire un seul résumant l'ensemble des données distribuées, sans accéder aux données d'origine. Les résultats expérimentaux montrent que ces algorithmes sont aussi performants que l'approche centralisée (i.e., SAINTETIQ appliqué aux données après regroupement sur un même site) et produisent des hiérarchies très semblables en structure et en qualité à celles produites par l'approche centralisée.
author Bechchi, Mounir
author_facet Bechchi, Mounir
author_sort Bechchi, Mounir
title Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
title_short Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
title_full Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
title_fullStr Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
title_full_unstemmed Clustering-based Approximate Answering of Query Result in Large and Distributed Databases
title_sort clustering-based approximate answering of query result in large and distributed databases
publisher Université de Nantes
publishDate 2009
url http://tel.archives-ouvertes.fr/tel-00475917
http://tel.archives-ouvertes.fr/docs/00/47/59/17/PDF/_These-Bechchi-VersionFinale.pdf
work_keys_str_mv AT bechchimounir clusteringbasedapproximateansweringofqueryresultinlargeanddistributeddatabases
_version_ 1716398041242533888