Massadatan matalavasteaikainen analyysijärjestelmä
Ajoneuvoliikenteestä on kehittymässä eräs tulevaisuuden merkittävimmistä massadatan lähteistä. Näistä monimuotoisista datalähteistä puolestaan huomattavan osan muodostavat korkeanopeuksiset, suurikokoiset, jatkuvat datavuot. Uusien teknologioiden käyttöön valjastamista vaaditaankin kaiken tämän data...
Main Author: | |
---|---|
Format: | Dissertation |
Language: | Finnish |
Published: |
University of Oulu
2015
|
Subjects: | |
Online Access: | http://urn.fi/URN:NBN:fi:oulu-201505291715 http://nbn-resolving.de/urn:nbn:fi:oulu-201505291715 |
Summary: | Ajoneuvoliikenteestä on kehittymässä eräs tulevaisuuden merkittävimmistä massadatan lähteistä. Näistä monimuotoisista datalähteistä puolestaan huomattavan osan muodostavat korkeanopeuksiset, suurikokoiset, jatkuvat datavuot. Uusien teknologioiden käyttöön valjastamista vaaditaankin kaiken tämän datan potentiaalin hyödyntämiseksi.
Tässä opinnäytetyössä luodaan laaja katsaus massadata-analyysin eri vaiheisiin suunnattuihin hajautettuihin ohjelmistotyökaluihin. Lisäksi työssä suunnitellaan ja toteutetaan Amazonin EC2-pilvipalvelusta tilattuun tietokoneklusteriin massadata-analyysijärjestelmä, jolla pyritään vastaamaan erityisesti ajoneuvoliikenteen datavoiden asettamiin haasteisiin tähtäämällä reaaliaikaiseen hajautettuun laskentaan sekä matalan vasteajan ad hoc -kyselyihin. Järjestelmässä hyödynnetään Apache Hadoop-, Apache Flume-, Apache Spark- ja Cloudera Impala -ohjelmistoja, jotka on valittu näitä tavoitteita silmällä pitäen. Datavoiden hajautettu reaaliaikainen analysointi pyritään erityisesti toteuttamaan Spark-analyysijärjestelmän Spark Streaming -laajennoksella.
Lopuksi järjestelmän suorituskykyä testataan ja analysoidaan. Sen toteutukseen valittujen ohjelmistojen suorituskykyä myös vertaillaan yleisimmin käytettyihin vastineihinsa. Testauksessa Spark Streamingilla toteutettu vuoanalyysi paljastui järjestelmän pullonkaulaksi, kun taas Sparkin eräajolaskennalla ja Impalan kyselymoottoreilla saavutettiin parempia tuloksia kuin niiden vaihtoehdoilla, Hadoopin MapReduce-kirjastolla ja Apache Hive -ohjelmistolla. === Vehicle traffic is about to develop to one of the most significant big data sources of the future. Of these various data sources, continuous high volume, high velocity data streams form a substantial part. All in all, harnessing new technologies is required to benefit from all the potential this data withholds.
In this thesis, software tools directed at different phases of mass data analysis are widely studied. Additionally, a mass data analysis system is designed and implemented to a computer cluster hosted by Amazon EC2 cloud service, especially to respond to the challenges represented by the data streams of vehicle traffic, by aiming to reach capability for distributed real time analysis and low latency ad hoc queries. The system utilizes multiple software components including Apache Hadoop, Apache Flume, Apache Spark and Cloudera Impala, which have been selected in view of achieving these goals. Spark Streaming extension of Spark processing engine is especially used for implementation of distributed real time data stream analysis.
Finally, the performance of the system is tested and analyzed. The performance of the software tools used in the implementation is compared to the performance of their most widespread counterparts. The testing revealed that the data stream analysis with Spark Streaming formed a bottleneck in the system. On the other hand, better results were achieved with batch computations of Spark and Impala query engine than with their alternatives, Hadoop MapReduce library and Apache Hive. |
---|