Declarative parallel query processing on large scale astronomical databases
Les travaux de cette thèse s'inscrivent dans le cadre du projet Petasky. Notre objectif est de proposer des outils permettant de gérer des dizaines de Peta-octets de données issues d'observations astronomiques. Nos travaux se focalisent essentiellement sur la conception des nouveaux systèm...
Main Author: | |
---|---|
Other Authors: | |
Language: | en |
Published: |
2015
|
Subjects: | |
Online Access: | http://www.theses.fr/2015LYO10326 |
id |
ndltd-theses.fr-2015LYO10326 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-theses.fr-2015LYO103262018-02-08T04:23:23Z Declarative parallel query processing on large scale astronomical databases Traitement parallèle et déclaratif de requêtes sur des masses de données issues d'observations astronomiques Benchmarking Passage à échelle Traitement parallèle Optimisation Graphes Astronomie Benchmark Scalability Parallel query evaluation Query optimization Graphs Astronomy 004.21 Les travaux de cette thèse s'inscrivent dans le cadre du projet Petasky. Notre objectif est de proposer des outils permettant de gérer des dizaines de Peta-octets de données issues d'observations astronomiques. Nos travaux se focalisent essentiellement sur la conception des nouveaux systèmes permettant de garantir le passage à l'échelle. Dans cette thèse, nos contributions concernent trois aspects : Benchmarking des systèmes existants, conception d'un nouveau système et optimisation du système. Nous avons commencé par analyser la capacité des systèmes fondés sur le modèle MapReduce et supportant SQL à gérer les données LSST et leurs capacités d'optimisation de certains types de requêtes. Nous avons pu constater qu'il n'y a pas de technique « magique » pour partitionner, stocker et indexer les données mais l'efficacité des techniques dédiées dépend essentiellement du type de requête et de la typologie des données considérées. Suite à notre travail de Benchmarking, nous avons retenu quelques techniques qui doivent être intégrées dans un système de gestion de données à large échelle. Nous avons conçu un nouveau système de façon à garantir la capacité dudit système à supporter plusieurs mécanismes de partitionnement et plusieurs opérateurs d'évaluation. Nous avons utilisé BSP (Bulk Synchronous Parallel) comme modèle de calcul. Les données sont représentées logiquement par des graphes. L'évaluation des requêtes est donc faite en explorant le graphe de données en utilisant les arcs entrants et les arcs sortants. Les premières expérimentations ont montré que notre approche permet une amélioration significative des performances par rapport aux systèmes Map/Reduce This work is carried out in framework of the PetaSky project. The objective of this project is to provide a set of tools allowing to manage Peta-bytes of data from astronomical observations. Our work is concerned with the design of a scalable approach. We first started by analyzing the ability of MapReduce based systems and supporting SQL to manage the LSST data and ensure optimization capabilities for certain types of queries. We analyzed the impact of data partitioning, indexing and compression on query performance. From our experiments, it follows that there is no “magic” technique to partition, store and index data but the efficiency of dedicated techniques depends mainly on the type of queries and the typology of data that are considered. Based on our work on benchmarking, we identified some techniques to be integrated to large-scale data management systems. We designed a new system allowing to support multiple partitioning mechanisms and several evaluation operators. We used the BSP (Bulk Synchronous Parallel) model as a parallel computation paradigm. Unlike MapeReduce model, we send intermediate results to workers that can continue their processing. Data is logically represented as a graph. The evaluation of queries is performed by exploring the data graph using forward and backward edges. We also offer a semi-automatic partitioning approach, i.e., we provide the system administrator with a set of tools allowing her/him to choose the manner of partitioning data using the schema of the database and domain knowledge. The first experiments show that our approach provides a significant performance improvement with respect to Map/Reduce systems Electronic Thesis or Dissertation Text en http://www.theses.fr/2015LYO10326 Mesmoudi, Amin 2015-12-03 Lyon 1 Hacid, Mohand Saïd |
collection |
NDLTD |
language |
en |
sources |
NDLTD |
topic |
Benchmarking Passage à échelle Traitement parallèle Optimisation Graphes Astronomie Benchmark Scalability Parallel query evaluation Query optimization Graphs Astronomy 004.21 |
spellingShingle |
Benchmarking Passage à échelle Traitement parallèle Optimisation Graphes Astronomie Benchmark Scalability Parallel query evaluation Query optimization Graphs Astronomy 004.21 Mesmoudi, Amin Declarative parallel query processing on large scale astronomical databases |
description |
Les travaux de cette thèse s'inscrivent dans le cadre du projet Petasky. Notre objectif est de proposer des outils permettant de gérer des dizaines de Peta-octets de données issues d'observations astronomiques. Nos travaux se focalisent essentiellement sur la conception des nouveaux systèmes permettant de garantir le passage à l'échelle. Dans cette thèse, nos contributions concernent trois aspects : Benchmarking des systèmes existants, conception d'un nouveau système et optimisation du système. Nous avons commencé par analyser la capacité des systèmes fondés sur le modèle MapReduce et supportant SQL à gérer les données LSST et leurs capacités d'optimisation de certains types de requêtes. Nous avons pu constater qu'il n'y a pas de technique « magique » pour partitionner, stocker et indexer les données mais l'efficacité des techniques dédiées dépend essentiellement du type de requête et de la typologie des données considérées. Suite à notre travail de Benchmarking, nous avons retenu quelques techniques qui doivent être intégrées dans un système de gestion de données à large échelle. Nous avons conçu un nouveau système de façon à garantir la capacité dudit système à supporter plusieurs mécanismes de partitionnement et plusieurs opérateurs d'évaluation. Nous avons utilisé BSP (Bulk Synchronous Parallel) comme modèle de calcul. Les données sont représentées logiquement par des graphes. L'évaluation des requêtes est donc faite en explorant le graphe de données en utilisant les arcs entrants et les arcs sortants. Les premières expérimentations ont montré que notre approche permet une amélioration significative des performances par rapport aux systèmes Map/Reduce === This work is carried out in framework of the PetaSky project. The objective of this project is to provide a set of tools allowing to manage Peta-bytes of data from astronomical observations. Our work is concerned with the design of a scalable approach. We first started by analyzing the ability of MapReduce based systems and supporting SQL to manage the LSST data and ensure optimization capabilities for certain types of queries. We analyzed the impact of data partitioning, indexing and compression on query performance. From our experiments, it follows that there is no “magic” technique to partition, store and index data but the efficiency of dedicated techniques depends mainly on the type of queries and the typology of data that are considered. Based on our work on benchmarking, we identified some techniques to be integrated to large-scale data management systems. We designed a new system allowing to support multiple partitioning mechanisms and several evaluation operators. We used the BSP (Bulk Synchronous Parallel) model as a parallel computation paradigm. Unlike MapeReduce model, we send intermediate results to workers that can continue their processing. Data is logically represented as a graph. The evaluation of queries is performed by exploring the data graph using forward and backward edges. We also offer a semi-automatic partitioning approach, i.e., we provide the system administrator with a set of tools allowing her/him to choose the manner of partitioning data using the schema of the database and domain knowledge. The first experiments show that our approach provides a significant performance improvement with respect to Map/Reduce systems |
author2 |
Lyon 1 |
author_facet |
Lyon 1 Mesmoudi, Amin |
author |
Mesmoudi, Amin |
author_sort |
Mesmoudi, Amin |
title |
Declarative parallel query processing on large scale astronomical databases |
title_short |
Declarative parallel query processing on large scale astronomical databases |
title_full |
Declarative parallel query processing on large scale astronomical databases |
title_fullStr |
Declarative parallel query processing on large scale astronomical databases |
title_full_unstemmed |
Declarative parallel query processing on large scale astronomical databases |
title_sort |
declarative parallel query processing on large scale astronomical databases |
publishDate |
2015 |
url |
http://www.theses.fr/2015LYO10326 |
work_keys_str_mv |
AT mesmoudiamin declarativeparallelqueryprocessingonlargescaleastronomicaldatabases AT mesmoudiamin traitementparalleleetdeclaratifderequetessurdesmassesdedonneesissuesdobservationsastronomiques |
_version_ |
1718614088186068992 |