Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter

Studien har för avsikt att förbättra kunskapen om vilka faktorer som påverkar cykelflödeten viss dag i Malmö. Vi har huvudsakligen undersökt frågor om, hur många grupperandekluster är optimalt för att kunna identifiera avvikande dagar och vilka är dess faktoreri en tidsserie cykelvolymdata? Vår arbe...

Full description

Bibliographic Details
Main Authors: Hojeij, Mohamed, Tram, Alex
Format: Others
Language:Swedish
Published: Malmö universitet, Fakulteten för teknik och samhälle (TS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20744
id ndltd-UPSALLA1-oai-DiVA.org-mau-20744
record_format oai_dc
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Klusteranalys
K-Means
Cykeldata
Maskininlärning
Engineering and Technology
Teknik och teknologier
spellingShingle Klusteranalys
K-Means
Cykeldata
Maskininlärning
Engineering and Technology
Teknik och teknologier
Hojeij, Mohamed
Tram, Alex
Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
description Studien har för avsikt att förbättra kunskapen om vilka faktorer som påverkar cykelflödeten viss dag i Malmö. Vi har huvudsakligen undersökt frågor om, hur många grupperandekluster är optimalt för att kunna identifiera avvikande dagar och vilka är dess faktoreri en tidsserie cykelvolymdata? Vår arbetsmetod var att använda ett matchande tillvägagångssätt baserat på ett experiment tillsammans med en utvärderingsmetod. Arbetsmetoden skedde i en iterativ process där experimentet var att hitta rätt antal kluster ochdär utvärderingen var analysen av resultaten som producerades av experimentet. Datanerhållen från en cykelräknare belägen på Kaptensgatan i Malmö fick databearbetas medhjälp av normalisering då volymen av cyklister inte ska ha någon påverkan i studien. Syftetmed vårt arbete är att kunna identifiera avvikande datapunkter och dess faktorer med storinverkan på cykelflöden med hjälp av klusteranalys då detta kan leda till mer välinformerade beslut vid stads- och transportplanering. Om det gick att analysera cyklister där dessafaktorer elimineras så skulle detta leda till vidare utveckling och forskning av stor betydelseför Malmö stad. Genom att använda oss av klusteranalysen K-means och Euklidisk distanssom används som beräkning av distanser inom liknande områden kunde vi finna relevantakluster med avvikande datapunkter och faktorer med stor inverkan på cykelflödet. Vårtresultat visar att 7 kluster varav 2 av de delades upp till 6 mindre kluster, var det mest optimala för studien och faktorerna med en stor inverkan på de antal registrerade cyklisternaunder vissa dagar kunde då identifieras bäst. Faktorerna som identifierades var evenemang,festivaler, fotbollsmatcher, konserter, lovdagar, nederbörd och röda dagar. === This study aims to provide a deeper understanding of the different factors and their impacton the bicycle flow in Malmö during a certain day. We mainly examined the questions,what is the most optimal number of clusters needed in order to identify discrepancies, andwhich key factors have huge impact in a dataset? The choice of the method used in thisstudy is a matching approach based on experiment together with an evaluation method.The work method occurred in an iterative process, where the experiment was conductedto find the right number of clusters and the evaluation was the analysing of the resultsthat were produced by the experiment. The collected data from a bicycle counter, locatedin Kaptensgatan in Malmö, had to be processed with normalization to ensure that thevolume of the bicycles does not affect the study. The purpose of our study is to identifydiscrepancies and key factors that have huge implications on the bicycle flow with thehelp of cluster analysis that might lead to more well-informed decision in urban planningand transportation planning. If it were possible to analyze cyclists where these factorsare eliminated, this would lead to further development and research of great importancefor Malmö City. By using the cluster algorithm K-means, and Euclidean distance, whichis used as calculation of distances in similar areas, we could then find relevant clusterswith deviating data points and key factors with great impact on the bicycle flow. Ourresults shows that 7 clusters, 2 of which were divided up to 6 smaller clusters, were themost optimal for the study and the factors with a large impact on the number-registeredcyclists during certain days could then be best identified. The factors identified wereevents, festivals, football matches, concerts, rainfalls and holidays.
author Hojeij, Mohamed
Tram, Alex
author_facet Hojeij, Mohamed
Tram, Alex
author_sort Hojeij, Mohamed
title Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
title_short Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
title_full Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
title_fullStr Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
title_full_unstemmed Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
title_sort klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
publisher Malmö universitet, Fakulteten för teknik och samhälle (TS)
publishDate 2019
url http://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20744
work_keys_str_mv AT hojeijmohamed klusteranalysavcykelflodesdataforidentifieringavviktigafaktorerochavvikandedatapunkter
AT tramalex klusteranalysavcykelflodesdataforidentifieringavviktigafaktorerochavvikandedatapunkter
_version_ 1719353810361516032
spelling ndltd-UPSALLA1-oai-DiVA.org-mau-207442020-10-28T05:38:28ZKlusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunktersweHojeij, MohamedTram, AlexMalmö universitet, Fakulteten för teknik och samhälle (TS)Malmö universitet, Fakulteten för teknik och samhälle (TS)Malmö universitet/Teknik och samhälle2019KlusteranalysK-MeansCykeldataMaskininlärningEngineering and TechnologyTeknik och teknologierStudien har för avsikt att förbättra kunskapen om vilka faktorer som påverkar cykelflödeten viss dag i Malmö. Vi har huvudsakligen undersökt frågor om, hur många grupperandekluster är optimalt för att kunna identifiera avvikande dagar och vilka är dess faktoreri en tidsserie cykelvolymdata? Vår arbetsmetod var att använda ett matchande tillvägagångssätt baserat på ett experiment tillsammans med en utvärderingsmetod. Arbetsmetoden skedde i en iterativ process där experimentet var att hitta rätt antal kluster ochdär utvärderingen var analysen av resultaten som producerades av experimentet. Datanerhållen från en cykelräknare belägen på Kaptensgatan i Malmö fick databearbetas medhjälp av normalisering då volymen av cyklister inte ska ha någon påverkan i studien. Syftetmed vårt arbete är att kunna identifiera avvikande datapunkter och dess faktorer med storinverkan på cykelflöden med hjälp av klusteranalys då detta kan leda till mer välinformerade beslut vid stads- och transportplanering. Om det gick att analysera cyklister där dessafaktorer elimineras så skulle detta leda till vidare utveckling och forskning av stor betydelseför Malmö stad. Genom att använda oss av klusteranalysen K-means och Euklidisk distanssom används som beräkning av distanser inom liknande områden kunde vi finna relevantakluster med avvikande datapunkter och faktorer med stor inverkan på cykelflödet. Vårtresultat visar att 7 kluster varav 2 av de delades upp till 6 mindre kluster, var det mest optimala för studien och faktorerna med en stor inverkan på de antal registrerade cyklisternaunder vissa dagar kunde då identifieras bäst. Faktorerna som identifierades var evenemang,festivaler, fotbollsmatcher, konserter, lovdagar, nederbörd och röda dagar. This study aims to provide a deeper understanding of the different factors and their impacton the bicycle flow in Malmö during a certain day. We mainly examined the questions,what is the most optimal number of clusters needed in order to identify discrepancies, andwhich key factors have huge impact in a dataset? The choice of the method used in thisstudy is a matching approach based on experiment together with an evaluation method.The work method occurred in an iterative process, where the experiment was conductedto find the right number of clusters and the evaluation was the analysing of the resultsthat were produced by the experiment. The collected data from a bicycle counter, locatedin Kaptensgatan in Malmö, had to be processed with normalization to ensure that thevolume of the bicycles does not affect the study. The purpose of our study is to identifydiscrepancies and key factors that have huge implications on the bicycle flow with thehelp of cluster analysis that might lead to more well-informed decision in urban planningand transportation planning. If it were possible to analyze cyclists where these factorsare eliminated, this would lead to further development and research of great importancefor Malmö City. By using the cluster algorithm K-means, and Euclidean distance, whichis used as calculation of distances in similar areas, we could then find relevant clusterswith deviating data points and key factors with great impact on the bicycle flow. Ourresults shows that 7 clusters, 2 of which were divided up to 6 smaller clusters, were themost optimal for the study and the factors with a large impact on the number-registeredcyclists during certain days could then be best identified. The factors identified wereevents, festivals, football matches, concerts, rainfalls and holidays. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:mau:diva-20744Local 29101application/pdfinfo:eu-repo/semantics/openAccess