A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet

In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this articl...

Full description

Bibliographic Details
Main Authors: Daiga Plase, Laila Niedrite, Romans Taranovs
Format: Article
Language:English
Published: Vilnius Gediminas Technical University 2017-07-01
Series:Mokslas: Lietuvos Ateitis
Subjects:
Online Access:http://journals.vgtu.lt/index.php/MLA/article/view/500
id doaj-ecf1011ea4cc4033a6149d55e8bda3b1
record_format Article
spelling doaj-ecf1011ea4cc4033a6149d55e8bda3b12021-05-02T13:49:18ZengVilnius Gediminas Technical UniversityMokslas: Lietuvos Ateitis2029-23412029-22522017-07-019310.3846/mla.2017.1033A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš ParquetDaiga Plase0Laila Niedrite1Romans Taranovs2University of Latvia, LatviaUniversity of Latvia, LatviaRiga Technical University, Latvia In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this article. The results show that compact data formats (Avro and Parquet) take up less storage space when compared with plain text data formats because of binary data format and compression advantage. Furthermore, data queries from the column based data format Parquet are faster when compared with text data formats and Avro. Santrauka Straipsnyje vertinamas duomenų užklausų našumas lyginant Avro ir Parguet failų formatus su teksto failų formatu. Tyrimuose taikytos įvairios duomenų užklausų formos, naudota Cloudera atvirojo kodo Apache Hadoop CDH 5.4 versijos programinė įranga. Tyrimo rezultatai patvirtina, kad glaustieji duomenų formatai (Avro ir Parguet) dėl galimybės įterpti dvejetainį kodą ir naudoti glaudą taupo atmintį. Parodoma, kad duomenų užklausos įvykdomos sparčiau naudojant Parquet nei Avro ar teksto failų formatus. Reikšminiai žodžiai: didieji duomenys; Hadoop; HDFS; Hive; Avro; Parquet.   http://journals.vgtu.lt/index.php/MLA/article/view/500Big DataHadoopHDFSHiveAvroParquet
collection DOAJ
language English
format Article
sources DOAJ
author Daiga Plase
Laila Niedrite
Romans Taranovs
spellingShingle Daiga Plase
Laila Niedrite
Romans Taranovs
A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
Mokslas: Lietuvos Ateitis
Big Data
Hadoop
HDFS
Hive
Avro
Parquet
author_facet Daiga Plase
Laila Niedrite
Romans Taranovs
author_sort Daiga Plase
title A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
title_short A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
title_full A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
title_fullStr A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
title_full_unstemmed A comparison of HDFS compact data formats: Avro versus Parquet / HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet
title_sort comparison of hdfs compact data formats: avro versus parquet / hdfs glaustųjų duomenų formatų palyginimas: avro prieš parquet
publisher Vilnius Gediminas Technical University
series Mokslas: Lietuvos Ateitis
issn 2029-2341
2029-2252
publishDate 2017-07-01
description In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this article. The results show that compact data formats (Avro and Parquet) take up less storage space when compared with plain text data formats because of binary data format and compression advantage. Furthermore, data queries from the column based data format Parquet are faster when compared with text data formats and Avro. Santrauka Straipsnyje vertinamas duomenų užklausų našumas lyginant Avro ir Parguet failų formatus su teksto failų formatu. Tyrimuose taikytos įvairios duomenų užklausų formos, naudota Cloudera atvirojo kodo Apache Hadoop CDH 5.4 versijos programinė įranga. Tyrimo rezultatai patvirtina, kad glaustieji duomenų formatai (Avro ir Parguet) dėl galimybės įterpti dvejetainį kodą ir naudoti glaudą taupo atmintį. Parodoma, kad duomenų užklausos įvykdomos sparčiau naudojant Parquet nei Avro ar teksto failų formatus. Reikšminiai žodžiai: didieji duomenys; Hadoop; HDFS; Hive; Avro; Parquet.  
topic Big Data
Hadoop
HDFS
Hive
Avro
Parquet
url http://journals.vgtu.lt/index.php/MLA/article/view/500
work_keys_str_mv AT daigaplase acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
AT lailaniedrite acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
AT romanstaranovs acomparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
AT daigaplase comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
AT lailaniedrite comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
AT romanstaranovs comparisonofhdfscompactdataformatsavroversusparquethdfsglaustujuduomenuformatupalyginimasavropriesparquet
_version_ 1721491014702596096