Massadatan matalavasteaikainen analyysijärjestelmä

Ajoneuvoliikenteestä on kehittymässä eräs tulevaisuuden merkittävimmistä massadatan lähteistä. Näistä monimuotoisista datalähteistä puolestaan huomattavan osan muodostavat korkeanopeuksiset, suurikokoiset, jatkuvat datavuot. Uusien teknologioiden käyttöön valjastamista vaaditaankin kaiken tämän data...

Full description

Bibliographic Details
Main Author: Salmi, M. (Miikka)
Format: Dissertation
Language:Finnish
Published: University of Oulu 2015
Subjects:
Online Access:http://urn.fi/URN:NBN:fi:oulu-201505291715
http://nbn-resolving.de/urn:nbn:fi:oulu-201505291715
id ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-201505291715
record_format oai_dc
spelling ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-2015052917152018-06-20T04:57:40ZMassadatan matalavasteaikainen analyysijärjestelmäSalmi, M. (Miikka)info:eu-repo/semantics/openAccess© Miikka Salmi, 2015Information EngineeringAjoneuvoliikenteestä on kehittymässä eräs tulevaisuuden merkittävimmistä massadatan lähteistä. Näistä monimuotoisista datalähteistä puolestaan huomattavan osan muodostavat korkeanopeuksiset, suurikokoiset, jatkuvat datavuot. Uusien teknologioiden käyttöön valjastamista vaaditaankin kaiken tämän datan potentiaalin hyödyntämiseksi. Tässä opinnäytetyössä luodaan laaja katsaus massadata-analyysin eri vaiheisiin suunnattuihin hajautettuihin ohjelmistotyökaluihin. Lisäksi työssä suunnitellaan ja toteutetaan Amazonin EC2-pilvipalvelusta tilattuun tietokoneklusteriin massadata-analyysijärjestelmä, jolla pyritään vastaamaan erityisesti ajoneuvoliikenteen datavoiden asettamiin haasteisiin tähtäämällä reaaliaikaiseen hajautettuun laskentaan sekä matalan vasteajan ad hoc -kyselyihin. Järjestelmässä hyödynnetään Apache Hadoop-, Apache Flume-, Apache Spark- ja Cloudera Impala -ohjelmistoja, jotka on valittu näitä tavoitteita silmällä pitäen. Datavoiden hajautettu reaaliaikainen analysointi pyritään erityisesti toteuttamaan Spark-analyysijärjestelmän Spark Streaming -laajennoksella. Lopuksi järjestelmän suorituskykyä testataan ja analysoidaan. Sen toteutukseen valittujen ohjelmistojen suorituskykyä myös vertaillaan yleisimmin käytettyihin vastineihinsa. Testauksessa Spark Streamingilla toteutettu vuoanalyysi paljastui järjestelmän pullonkaulaksi, kun taas Sparkin eräajolaskennalla ja Impalan kyselymoottoreilla saavutettiin parempia tuloksia kuin niiden vaihtoehdoilla, Hadoopin MapReduce-kirjastolla ja Apache Hive -ohjelmistolla.Vehicle traffic is about to develop to one of the most significant big data sources of the future. Of these various data sources, continuous high volume, high velocity data streams form a substantial part. All in all, harnessing new technologies is required to benefit from all the potential this data withholds. In this thesis, software tools directed at different phases of mass data analysis are widely studied. Additionally, a mass data analysis system is designed and implemented to a computer cluster hosted by Amazon EC2 cloud service, especially to respond to the challenges represented by the data streams of vehicle traffic, by aiming to reach capability for distributed real time analysis and low latency ad hoc queries. The system utilizes multiple software components including Apache Hadoop, Apache Flume, Apache Spark and Cloudera Impala, which have been selected in view of achieving these goals. Spark Streaming extension of Spark processing engine is especially used for implementation of distributed real time data stream analysis. Finally, the performance of the system is tested and analyzed. The performance of the software tools used in the implementation is compared to the performance of their most widespread counterparts. The testing revealed that the data stream analysis with Spark Streaming formed a bottleneck in the system. On the other hand, better results were achieved with batch computations of Spark and Impala query engine than with their alternatives, Hadoop MapReduce library and Apache Hive.University of Oulu2015-06-01info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://urn.fi/URN:NBN:fi:oulu-201505291715urn:nbn:fi:oulu-201505291715fin
collection NDLTD
language Finnish
format Dissertation
sources NDLTD
topic Information Engineering
spellingShingle Information Engineering
Salmi, M. (Miikka)
Massadatan matalavasteaikainen analyysijärjestelmä
description Ajoneuvoliikenteestä on kehittymässä eräs tulevaisuuden merkittävimmistä massadatan lähteistä. Näistä monimuotoisista datalähteistä puolestaan huomattavan osan muodostavat korkeanopeuksiset, suurikokoiset, jatkuvat datavuot. Uusien teknologioiden käyttöön valjastamista vaaditaankin kaiken tämän datan potentiaalin hyödyntämiseksi. Tässä opinnäytetyössä luodaan laaja katsaus massadata-analyysin eri vaiheisiin suunnattuihin hajautettuihin ohjelmistotyökaluihin. Lisäksi työssä suunnitellaan ja toteutetaan Amazonin EC2-pilvipalvelusta tilattuun tietokoneklusteriin massadata-analyysijärjestelmä, jolla pyritään vastaamaan erityisesti ajoneuvoliikenteen datavoiden asettamiin haasteisiin tähtäämällä reaaliaikaiseen hajautettuun laskentaan sekä matalan vasteajan ad hoc -kyselyihin. Järjestelmässä hyödynnetään Apache Hadoop-, Apache Flume-, Apache Spark- ja Cloudera Impala -ohjelmistoja, jotka on valittu näitä tavoitteita silmällä pitäen. Datavoiden hajautettu reaaliaikainen analysointi pyritään erityisesti toteuttamaan Spark-analyysijärjestelmän Spark Streaming -laajennoksella. Lopuksi järjestelmän suorituskykyä testataan ja analysoidaan. Sen toteutukseen valittujen ohjelmistojen suorituskykyä myös vertaillaan yleisimmin käytettyihin vastineihinsa. Testauksessa Spark Streamingilla toteutettu vuoanalyysi paljastui järjestelmän pullonkaulaksi, kun taas Sparkin eräajolaskennalla ja Impalan kyselymoottoreilla saavutettiin parempia tuloksia kuin niiden vaihtoehdoilla, Hadoopin MapReduce-kirjastolla ja Apache Hive -ohjelmistolla. === Vehicle traffic is about to develop to one of the most significant big data sources of the future. Of these various data sources, continuous high volume, high velocity data streams form a substantial part. All in all, harnessing new technologies is required to benefit from all the potential this data withholds. In this thesis, software tools directed at different phases of mass data analysis are widely studied. Additionally, a mass data analysis system is designed and implemented to a computer cluster hosted by Amazon EC2 cloud service, especially to respond to the challenges represented by the data streams of vehicle traffic, by aiming to reach capability for distributed real time analysis and low latency ad hoc queries. The system utilizes multiple software components including Apache Hadoop, Apache Flume, Apache Spark and Cloudera Impala, which have been selected in view of achieving these goals. Spark Streaming extension of Spark processing engine is especially used for implementation of distributed real time data stream analysis. Finally, the performance of the system is tested and analyzed. The performance of the software tools used in the implementation is compared to the performance of their most widespread counterparts. The testing revealed that the data stream analysis with Spark Streaming formed a bottleneck in the system. On the other hand, better results were achieved with batch computations of Spark and Impala query engine than with their alternatives, Hadoop MapReduce library and Apache Hive.
author Salmi, M. (Miikka)
author_facet Salmi, M. (Miikka)
author_sort Salmi, M. (Miikka)
title Massadatan matalavasteaikainen analyysijärjestelmä
title_short Massadatan matalavasteaikainen analyysijärjestelmä
title_full Massadatan matalavasteaikainen analyysijärjestelmä
title_fullStr Massadatan matalavasteaikainen analyysijärjestelmä
title_full_unstemmed Massadatan matalavasteaikainen analyysijärjestelmä
title_sort massadatan matalavasteaikainen analyysijärjestelmä
publisher University of Oulu
publishDate 2015
url http://urn.fi/URN:NBN:fi:oulu-201505291715
http://nbn-resolving.de/urn:nbn:fi:oulu-201505291715
work_keys_str_mv AT salmimmiikka massadatanmatalavasteaikainenanalyysijarjestelma
_version_ 1718697536119635968