Summary: | This report is aimed at those who are interested in data analysis and data blending. Decision making is crucial for an organization to succeed in today’s market. Data analysis is an important support activity in decision making and is applied in many industries, for example healthcare. For many years data analysts have worked on structured data in small volumes, with traditional methods such as spreadsheet. As new data sources emerged, such as social media, data is generated in higher volume, velocity and variety [1]. The traditional methods data analysts apply are no longer capable of handling this situation. Hence scientists and engineers have developed a new technology called data blending. Data blending is the process of merging, sorting, joining and combining all the useful data into a functional dataset [2]. Some of the well-known data blending platforms include Datawatch, Microsoft Power Query for Excel, IBM DataWorks and Alteryx [3]. Synergus AB is a consulting company engaged in health economics, market access and Health Technology Assessment (HTA) [4]. The company does analysis for their clients. Unfortunately the way they work is not efficient. New tools and methods need to be applied in the company. The company has decided to apply data blending in their daily work. My task in this project was to build datasets for analysis and create workflows for future use with a data blending platform. For my interest, I did a research on data blending to understand how this new technology works. During the project I have worked with four data sources. These were Microsoft Excel worksheet, CSV file, MS Access database and JSON file. I built datasets the company needs. I also preceded a case study on data blending process. I focused on the three steps of data handling, namely input, process and output. After the project, I reached a conclusion that data blending offers better performance and functionality. It is easy to learn and use, too. === Denna rapport vänder sig till de som är intresserad av data analys och datahantering. Belsut fattande är avgörande för en organisation att lyckas i dagens marknad. Data analys är en viktig stöd inom beslutfattande och tillämpas i många industrier, till exempel hälsovård. I många år har data analyster arbetat med strukturerad data i små volymer, med traditionella arbetsmetoder såsom kalkyblad. Med nya data källor uppstått, såsom sociala media, data är genererad i högre volym, högre hastighet och högre variation. De traditionella metoder data analyster använder är inte längre kapabla av att hantera denna situation. Därför har vetenskapsmän och ingenjörer utvecklat ett ny teknologi kallad datahantering. Datahantering är en process för att sammanfoga, sortera och kombinera all värdeful data till en funktionell dataset. Några av de välkända datahanteringsplatformer inkluderar Datawatch, Microsoft Power Query for Excel, IBM DataWorks and Alteryx. Synergus AB är ett konsultföretag engagerad inom hälsoekonomi, marknad tillträde, och Health Technology Assessment (HTA). Företaget gör analys för deras kunder. Tyvärr är de arbetsmetoder inom företaget inte effektiv. Nya verktyg och metoder måste tillämpas inom företaget. Synergus AB har beslutat att tillämpa datahantering i deras dagliga arbete. Mitt uppdrag i detta projekt var att bygga dataset för analys och skapa arbetsflöde för framtida användning med en datahanteringsplatform. För mitt eget intresse, jag utförde en studie av datahantering för att förstå hur denna nya teknologi fungerar. Under projektet har jag arbetat med fyra data källor. De var Microsft Excel kalkylblad, CSV fil, MS Access databas och JSON fil. Jag byggde dataset företaget behöver. Jag också utförde ett fall studie om datahanteringsprocess. Jag fokuserade mig på de tre steg inom datahantering, nämligen inmatning, bearbetning och utmatning. Efter projektet kom jag till en slutsats att datahantering erjuder bättre prestanda och funktionelitet. Det är också lätt att lära sig och använda.
|