Dataset versioning for Hops File System : Snapshotting solution for reliable and reproducible data science experiments

As the awareness of the potential of Big Data arises, more and more companies are starting to create their own Data Science divisions and their projects are becoming big and complex handled by big multidisciplinary teams. Furthermore, with the expansion of fields such as Deep Learning, Data Science...

Full description

Bibliographic Details
Main Author: Grana Gutiérrez, Braulio
Format: Others
Language:English
Published: KTH, Skolan för informations- och kommunikationsteknik (ICT) 2017
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-215722
Description
Summary:As the awareness of the potential of Big Data arises, more and more companies are starting to create their own Data Science divisions and their projects are becoming big and complex handled by big multidisciplinary teams. Furthermore, with the expansion of fields such as Deep Learning, Data Science is becoming a very popular research field both in companies and universities. In this context it becomes crucial for Data Scientists to be able to reproduce their experiments and test them against previous models developed in previous versions of a dataset. This Master Thesis project presents the design and implementation of a snapshotting system for the distributed File System HopsFS based on Apache HDFS and developed at the Swedish Institute of Computer Science (SICS). This project improves on previous solutions designed for both HopsFS and HDFS by solving problems such as the handling of incomplete blocks in snapshots while also adding new features such as the automatic snapshots to allow users to undo the last few changes made in a file. Finally, an analysis of the implementation was performed in order to compare it to the previous state of HopsFS and calculate the impact of the solution on the different operations performed by the system. Said analysis showed an increase of around 40% in the time needed to perform operations such as read and write with different workloads due mostly to the new database queries used in this solution. === När kunskapen om Big Data-potentialen uppstår, börjar allt fler företag skapa egna datavetenskapsavdelningar och deras projekt blir stora och komplexa hanteras av stora tvärvetenskapliga team. Vidare, med expansionen av fält som Deep Learning, blir datavetenskap ett mycket populärt forskningsområde både i företag och universitet.I detta sammanhang blir det avgörande för datavetenskapare att kunna reproducera sina experiment och testa dem mot tidigare modeller som utvecklats i tidigare versioner av en dataset. Detta masterprojekt presenterar design och implementeringav ett ögonblickssystem för det distribuerade filsystemet HopsFS baserat påApache HDFS och utvecklat på SICS.Detta projekt förbättras på tidigare lösningar utformade för både HopsFSoch HDFS genom att lösa problem som hantering av ofullständiga block i ögonblicksbilder samtidigt som du lägger till nya funktioner som de automatiska ögonblicksbilderna så att användarna kan ångra de senaste ändringarna i en fil.Slutligen genomfördes en analys av genomförandet för att jämföra det med HopsFS tidigare tillstånd och beräkna lösningens inverkan på de olika operationersom utförts av systemet. Nämnda analys visade en ökning på omkring 40 %i den tid som behövs för att utföra operationer som läs och skriv med olikaarbetsbelastningar, för det mesta beror på denna lösning.