Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação

Made available in DSpace on 2016-06-02T19:06:06Z (GMT). No. of bitstreams: 1 5351.pdf: 2740873 bytes, checksum: e4ce3a33279ffb7afccf2fc418af0f79 (MD5) Previous issue date: 2013-02-04 === During the last years we have witnessed a significant growing in the amount of data processed in a daily basis...

Full description

Bibliographic Details
Main Author: Rocha, Fabiano da Guia
Other Authors: Senger, Hermes
Format: Others
Language:Portuguese
Published: Universidade Federal de São Carlos 2016
Subjects:
Online Access:https://repositorio.ufscar.br/handle/ufscar/534
id ndltd-IBICT-oai-repositorio.ufscar.br-ufscar-534
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic Computação
Sistemas multiprocessados
Escalabilidade
Modelo mapReduce
MapReduce
Multiprocessor systems
Scalability
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
spellingShingle Computação
Sistemas multiprocessados
Escalabilidade
Modelo mapReduce
MapReduce
Multiprocessor systems
Scalability
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Rocha, Fabiano da Guia
Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
description Made available in DSpace on 2016-06-02T19:06:06Z (GMT). No. of bitstreams: 1 5351.pdf: 2740873 bytes, checksum: e4ce3a33279ffb7afccf2fc418af0f79 (MD5) Previous issue date: 2013-02-04 === During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes. === Durante os últimos anos, houve um significativo crescimento na quantidade de dados processados diariamente por companhias, universidades e outras instituições. Mapreduce é um modelo de programação e um framework para a execução de aplicações que manipulam grandes volumes de dados em máquinas compostas por milhares de processadores ou núcleos. Atualmente, o Hadoop é a implementação como software livre de Mapreduce mais largamente adotada. Embora existam relatos na literatura sobre o uso de aplicações Mapreduce em plataformas com cerca de quatro mil núcleos processando dados da ordem de dezenas de petabytes, o estudo dos limites de escalabilidade não foi esgotado e muito ainda resta a ser estudado. Um dos principais desafios no estudo de escalabilidade de aplicações Mapreduce é o grande número de parâmetros de configuração da aplicação e do ambiente Hadoop. Na literatura há relatos que mencionam mais de 190 parâmetros de configuração, sendo que 25 podem afetar de maneira significativa o desempenho da aplicação. Este trabalho contém um estudo sobre a escalabilidade de aplicações Mapreduce executadas na plataforma Hadoop. Devido ao número limitado de processadores disponíveis, adotou-se uma abordagem que combina experimentação e simulação. A experimentação foi realizada em um cluster local de 32 nós (com 64 processadores), e para a simulação empregou-se o simulador MRSG (MapReduce Over SimGrid). Como principais resultados, foram identificados os parâmetros de maior impacto no desempenho e na escalabilidade das aplicações. Esse resultado foi obtido por meio de simulação. Além disso, apresentou-se um método para a calibração do simulador MRSG, em função de uma aplicação representativa escolhida como benchmark. Com o simulador calibrado, avaliou-se a escalabilidade de uma aplicação bem otimizada. O simulador calibrado permitiu obter uma predição sobre a escalabilidade da aplicação para uma plataforma com até 10 mil nós.
author2 Senger, Hermes
author_facet Senger, Hermes
Rocha, Fabiano da Guia
author Rocha, Fabiano da Guia
author_sort Rocha, Fabiano da Guia
title Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_short Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_fullStr Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_full_unstemmed Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação
title_sort análise de escalabilidade de aplicações hadoop/mapreduce por meio de simulação
publisher Universidade Federal de São Carlos
publishDate 2016
url https://repositorio.ufscar.br/handle/ufscar/534
work_keys_str_mv AT rochafabianodaguia analisedeescalabilidadedeaplicacoeshadoopmapreducepormeiodesimulacao
_version_ 1718648445485449216
spelling ndltd-IBICT-oai-repositorio.ufscar.br-ufscar-5342018-05-23T20:01:13Z Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação Rocha, Fabiano da Guia Senger, Hermes Computação Sistemas multiprocessados Escalabilidade Modelo mapReduce MapReduce Multiprocessor systems Scalability CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Made available in DSpace on 2016-06-02T19:06:06Z (GMT). No. of bitstreams: 1 5351.pdf: 2740873 bytes, checksum: e4ce3a33279ffb7afccf2fc418af0f79 (MD5) Previous issue date: 2013-02-04 During the last years we have witnessed a significant growing in the amount of data processed in a daily basis by companies, universities, and other institutions. Many use cases report processing of data volumes of petabytes in thousands of cores by a single application. MapReduce is a programming model, and a framework for the execution of applications which manipulate large data volumes in machines composed of thousands of processors/cores. Currently, Hadoop is the most widely adopted free implementation of MapReduce. Although there are reports in the literature about the use of MapReduce applications on platforms with more than one hundred cores, the scalability is not stressed and much remain to be studied in this field. One of the main challenges in the scalability study of MapReduce applications is the large number of configuration parameters of Hadoop. There are reports in the literature that mention more than 190 configuration parameters, 25 of which are known to impact the application performance in a significant way. In this work we study the scalability of MapReduce applications running on Hadoop. Due to the limited number of processors/cores available, we adopted a combined approach involving both experimentation and simulation. The experimentation has been carried out in a local cluster of 32 nodes, and for the simulation we have used MRSG (MapReduce Over SimGrid). In a first set of experiments, we identify the most impacting parameters in the performance and scalability of the applications. Then, we present a method for calibrating the simulator. With the calibrated simulator, we evaluated the scalability of one well-optimized application on larger clusters, with up to 10 thousands of nodes. Durante os últimos anos, houve um significativo crescimento na quantidade de dados processados diariamente por companhias, universidades e outras instituições. Mapreduce é um modelo de programação e um framework para a execução de aplicações que manipulam grandes volumes de dados em máquinas compostas por milhares de processadores ou núcleos. Atualmente, o Hadoop é a implementação como software livre de Mapreduce mais largamente adotada. Embora existam relatos na literatura sobre o uso de aplicações Mapreduce em plataformas com cerca de quatro mil núcleos processando dados da ordem de dezenas de petabytes, o estudo dos limites de escalabilidade não foi esgotado e muito ainda resta a ser estudado. Um dos principais desafios no estudo de escalabilidade de aplicações Mapreduce é o grande número de parâmetros de configuração da aplicação e do ambiente Hadoop. Na literatura há relatos que mencionam mais de 190 parâmetros de configuração, sendo que 25 podem afetar de maneira significativa o desempenho da aplicação. Este trabalho contém um estudo sobre a escalabilidade de aplicações Mapreduce executadas na plataforma Hadoop. Devido ao número limitado de processadores disponíveis, adotou-se uma abordagem que combina experimentação e simulação. A experimentação foi realizada em um cluster local de 32 nós (com 64 processadores), e para a simulação empregou-se o simulador MRSG (MapReduce Over SimGrid). Como principais resultados, foram identificados os parâmetros de maior impacto no desempenho e na escalabilidade das aplicações. Esse resultado foi obtido por meio de simulação. Além disso, apresentou-se um método para a calibração do simulador MRSG, em função de uma aplicação representativa escolhida como benchmark. Com o simulador calibrado, avaliou-se a escalabilidade de uma aplicação bem otimizada. O simulador calibrado permitiu obter uma predição sobre a escalabilidade da aplicação para uma plataforma com até 10 mil nós. 2016-06-02T19:06:06Z 2013-09-05 2016-06-02T19:06:06Z 2013-02-04 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis ROCHA, Fabiano da Guia. Análise de escalabilidade de aplicações Hadoop/Mapreduce por meio de simulação. 2013. 80 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2013. https://repositorio.ufscar.br/handle/ufscar/534 por info:eu-repo/semantics/openAccess application/pdf Universidade Federal de São Carlos Programa de Pós-graduação em Ciência da Computação UFSCar BR reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos instacron:UFSCAR