A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this articl...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Vilnius Gediminas Technical University
2017-07-01
|
Series: | Mokslas: Lietuvos Ateitis |
Subjects: | |
Online Access: | http://journals.vgtu.lt/index.php/MLA/article/view/500 |
id |
doaj-ecf1011ea4cc4033a6149d55e8bda3b1 |
---|---|
record_format |
Article |
spelling |
doaj-ecf1011ea4cc4033a6149d55e8bda3b12021-05-02T13:49:18ZengVilnius Gediminas Technical UniversityMokslas: Lietuvos Ateitis2029-23412029-22522017-07-019310.3846/mla.2017.1033A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš ParquetDaiga Plase0Laila Niedrite1Romans Taranovs2University of Latvia, LatviaUniversity of Latvia, LatviaRiga Technical University, Latvia In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this article. The results show that compact data formats (Avro and Parquet) take up less storage space when compared with plain text data formats because of binary data format and compression advantage. Furthermore, data queries from the column based data format Parquet are faster when compared with text data formats and Avro. Santrauka Straipsnyje vertinamas duomenų užklausų našumas lyginant Avro ir Parguet failų formatus su teksto failų formatu. Tyrimuose taikytos įvairios duomenų užklausų formos, naudota Cloudera atvirojo kodo Apache Hadoop CDH 5.4 versijos programinė įranga. Tyrimo rezultatai patvirtina, kad glaustieji duomenų formatai (Avro ir Parguet) dėl galimybės įterpti dvejetainį kodą ir naudoti glaudą taupo atmintį. Parodoma, kad duomenų užklausos įvykdomos sparčiau naudojant Parquet nei Avro ar teksto failų formatus. Reikšminiai žodžiai: didieji duomenys; Hadoop; HDFS; Hive; Avro; Parquet. http://journals.vgtu.lt/index.php/MLA/article/view/500Big DataHadoopHDFSHiveAvroParquet |
collection |
DOAJ |
language |
English |
format |
Article |
sources |
DOAJ |
author |
Daiga Plase Laila Niedrite Romans Taranovs |
spellingShingle |
Daiga Plase Laila Niedrite Romans Taranovs A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet Mokslas: Lietuvos Ateitis Big Data Hadoop HDFS Hive Avro Parquet |
author_facet |
Daiga Plase Laila Niedrite Romans Taranovs |
author_sort |
Daiga Plase |
title |
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet |
title_short |
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet |
title_full |
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet |
title_fullStr |
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet |
title_full_unstemmed |
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet |
title_sort |
comparison of hdfs compact data formats: avro versus parquet / hdfs glaustųjų duomenų formatų palyginimas: avro prieš parquet |
publisher |
Vilnius Gediminas Technical University |
series |
Mokslas: Lietuvos Ateitis |
issn |
2029-2341 2029-2252 |
publishDate |
2017-07-01 |
description |
In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this article. The results show that compact data formats (Avro and Parquet) take up less storage space when compared with plain text data formats because of binary data format and compression advantage. Furthermore, data queries from the column based data format Parquet are faster when compared with text data formats and Avro.
Santrauka
Straipsnyje vertinamas duomenų užklausų našumas lyginant Avro ir Parguet failų formatus su teksto failų formatu. Tyrimuose taikytos įvairios duomenų užklausų formos, naudota Cloudera atvirojo kodo Apache Hadoop CDH 5.4 versijos programinė įranga. Tyrimo rezultatai patvirtina, kad glaustieji duomenų formatai (Avro ir Parguet) dėl galimybės įterpti dvejetainį kodą ir naudoti glaudą taupo atmintį. Parodoma, kad duomenų užklausos įvykdomos sparčiau naudojant Parquet nei Avro ar teksto failų formatus.
Reikšminiai žodžiai: didieji duomenys; Hadoop; HDFS; Hive; Avro; Parquet.
|
topic |
Big Data Hadoop HDFS Hive Avro Parquet |
url |
http://journals.vgtu.lt/index.php/MLA/article/view/500 |
work_keys_str_mv |
AT daigaplase acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet AT lailaniedrite acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet AT romanstaranovs acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet AT daigaplase comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet AT lailaniedrite comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet AT romanstaranovs comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet |
_version_ |
1721491014702596096 |