Optimizing data management for MapReduce applications on large-scale distributed infrastructures

Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de...

Full description

Bibliographic Details
Main Author:	Moise, Diana Maria
Other Authors:	Cachan, Ecole normale supérieure
Language:	en
Published:	2011
Subjects:	Applications data-intensive MapReduce Plate-formes distribuées à grande échelle Grilles informatiques Cloud computing Gestion des données intermédiaires Hadoop HDFS BlobSeer Haut débit Accès hautement concurrents Data-intensive applications Large-scale distributed platforms Grid Intermediate data management High throughput Heavy access concurrency
Online Access:	http://www.theses.fr/2011DENS0067/document

id	ndltd-theses.fr-2011DENS0067
record_format	oai_dc
collection	NDLTD
language	en
sources	NDLTD
topic	Applications data-intensive MapReduce Plate-formes distribuées à grande échelle Grilles informatiques Cloud computing Gestion des données intermédiaires Hadoop HDFS BlobSeer Haut débit Accès hautement concurrents Data-intensive applications MapReduce Large-scale distributed platforms Grid Cloud computing Intermediate data management Hadoop HDFS BlobSeer High throughput Heavy access concurrency
spellingShingle	Applications data-intensive MapReduce Plate-formes distribuées à grande échelle Grilles informatiques Cloud computing Gestion des données intermédiaires Hadoop HDFS BlobSeer Haut débit Accès hautement concurrents Data-intensive applications MapReduce Large-scale distributed platforms Grid Cloud computing Intermediate data management Hadoop HDFS BlobSeer High throughput Heavy access concurrency Moise, Diana Maria Optimizing data management for MapReduce applications on large-scale distributed infrastructures
description	Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds. === Data-intensive applications are nowadays, widely used in various domains to extract and process information, to design complex systems, to perform simulations of real models, etc. These applications exhibit challenging requirements in terms of both storage and computation. Specialized abstractions like Google’s MapReduce were developed to efficiently manage the workloads of data-intensive applications. The MapReduce abstraction has revolutionized the data-intensive community and has rapidly spread to various research and production areas. An open-source implementation of Google's abstraction was provided by Yahoo! through the Hadoop project. This framework is considered the reference MapReduce implementation and is currently heavily used for various purposes and on several infrastructures. To achieve high-performance MapReduce processing, we propose a concurrency-optimized file system for MapReduce Frameworks. As a starting point, we rely on BlobSeer, a framework that was designed as a solution to the challenge of efficiently storing data generated by data-intensive applications running at large scales. We have built the BlobSeer File System (BSFS), with the goal of providing high throughput under heavy concurrency to MapReduce applications. We also study several aspects related to intermediate data management in MapReduce frameworks. We investigate the requirements of MapReduce intermediate data at two levels: inside the same job, and during the execution of pipeline applications. Finally, we show how BSFS can enable extensions to the de facto MapReduce implementation, Hadoop, such as the support for the append operation. This work also comprises the evaluation and the obtained results in the context of grid and cloud environments.
author2	Cachan, Ecole normale supérieure
author_facet	Cachan, Ecole normale supérieure Moise, Diana Maria
author	Moise, Diana Maria
author_sort	Moise, Diana Maria
title	Optimizing data management for MapReduce applications on large-scale distributed infrastructures
title_short	Optimizing data management for MapReduce applications on large-scale distributed infrastructures
title_full	Optimizing data management for MapReduce applications on large-scale distributed infrastructures
title_fullStr	Optimizing data management for MapReduce applications on large-scale distributed infrastructures
title_full_unstemmed	Optimizing data management for MapReduce applications on large-scale distributed infrastructures
title_sort	optimizing data management for mapreduce applications on large-scale distributed infrastructures
publishDate	2011
url	http://www.theses.fr/2011DENS0067/document
work_keys_str_mv	AT moisedianamaria optimizingdatamanagementformapreduceapplicationsonlargescaledistributedinfrastructures AT moisedianamaria optimisationdelagestiondesdonneespourlesapplicationsmapreducesurdesinfrastructuresdistribueesagrandeechelle
_version_	1718461500652257280
spelling	ndltd-theses.fr-2011DENS00672017-06-22T04:30:02Z Optimizing data management for MapReduce applications on large-scale distributed infrastructures Optimisation de la gestion des données pour les applications MapReduce sur des infrastructures distribuées à grande échelle Applications data-intensive MapReduce Plate-formes distribuées à grande échelle Grilles informatiques Cloud computing Gestion des données intermédiaires Hadoop HDFS BlobSeer Haut débit Accès hautement concurrents Data-intensive applications MapReduce Large-scale distributed platforms Grid Cloud computing Intermediate data management Hadoop HDFS BlobSeer High throughput Heavy access concurrency Les applications data-intensive sont largement utilisées au sein de domaines diverses dans le but d'extraire et de traiter des informations, de concevoir des systèmes complexes, d'effectuer des simulations de modèles réels, etc. Ces applications posent des défis complexes tant en termes de stockage que de calcul. Dans le contexte des applications data-intensive, nous nous concentrons sur le paradigme MapReduce et ses mises en oeuvre. Introduite par Google, l'abstraction MapReduce a révolutionné la communauté intensif de données et s'est rapidement étendue à diverses domaines de recherche et de production. Une implémentation domaine publique de l'abstraction mise en avant par Google, a été fournie par Yahoo à travers du project Hadoop. Le framework Hadoop est considéré l'implémentation de référence de MapReduce et est actuellement largement utilisé à des fins diverses et sur plusieurs infrastructures. Nous proposons un système de fichiers distribué, optimisé pour des accès hautement concurrents, qui puisse servir comme couche de stockage pour des applications MapReduce. Nous avons conçu le BlobSeer File System (BSFS), basé sur BlobSeer, un service de stockage distribué, hautement efficace, facilitant le partage de données à grande échelle. Nous étudions également plusieurs aspects liés à la gestion des données intermédiaires dans des environnements MapReduce. Nous explorons les contraintes des données intermédiaires MapReduce à deux niveaux: dans le même job MapReduce et pendant l'exécution des pipelines d'applications MapReduce. Enfin, nous proposons des extensions de Hadoop, un environnement MapReduce populaire et open-source, comme par example le support de l'opération append. Ce travail inclut également l'évaluation et les résultats obtenus sur des infrastructures à grande échelle: grilles informatiques et clouds. Data-intensive applications are nowadays, widely used in various domains to extract and process information, to design complex systems, to perform simulations of real models, etc. These applications exhibit challenging requirements in terms of both storage and computation. Specialized abstractions like Google’s MapReduce were developed to efficiently manage the workloads of data-intensive applications. The MapReduce abstraction has revolutionized the data-intensive community and has rapidly spread to various research and production areas. An open-source implementation of Google's abstraction was provided by Yahoo! through the Hadoop project. This framework is considered the reference MapReduce implementation and is currently heavily used for various purposes and on several infrastructures. To achieve high-performance MapReduce processing, we propose a concurrency-optimized file system for MapReduce Frameworks. As a starting point, we rely on BlobSeer, a framework that was designed as a solution to the challenge of efficiently storing data generated by data-intensive applications running at large scales. We have built the BlobSeer File System (BSFS), with the goal of providing high throughput under heavy concurrency to MapReduce applications. We also study several aspects related to intermediate data management in MapReduce frameworks. We investigate the requirements of MapReduce intermediate data at two levels: inside the same job, and during the execution of pipeline applications. Finally, we show how BSFS can enable extensions to the de facto MapReduce implementation, Hadoop, such as the support for the append operation. This work also comprises the evaluation and the obtained results in the context of grid and cloud environments. Electronic Thesis or Dissertation Text en http://www.theses.fr/2011DENS0067/document Moise, Diana Maria 2011-12-16 Cachan, Ecole normale supérieure Bougé, Luc Antoniu, Gabriel

Optimizing data management for MapReduce applications on large-scale distributed infrastructures

Similar Items