A comparison of supervised and semi-supervised learning for classification of truck stop locations

GPS-based data has been an important source for researchers and commercial fleet companies to study and build transportation models, since GPS uses passive information collecting without including too much human participation, and thus provides the possibility of collecting huge amount of data. Rece...

Full description

Bibliographic Details
Main Author: Xue, Mengdi
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-296349
Description
Summary:GPS-based data has been an important source for researchers and commercial fleet companies to study and build transportation models, since GPS uses passive information collecting without including too much human participation, and thus provides the possibility of collecting huge amount of data. Recent research shows that the GPS data can be used to solve different kinds of transportation related problems using machine learning algorithms. One of these problems is to understand a stop location’s purpose, which can be used to improve daily transport. This thesis investigates whether applying semi-supervised learning methods on the identification and classification of stop locations can improve the results because the collection of labeled data is expensive. Stop data of individual stops that contains location, duration, and vehicle information is clustered together to extract the features for training and create the cluster data. The cluster data is labeled by the manually labeled polygon bounding boxes on the map into four classes: loading, unloading, workshop, and other. Deep neural networks with virtual adversarial training (VAT) as the regularization method are applied to the cluster data to train the supervised and semi-supervised learning models. Only labeled data are used in supervised learning, while all labeled and non-labeled data are used in semi-supervised learning. The resulting accuracy for supervised learning and semi-supervised learning is 90.16% and 89.21% when applying to the unbalanced training set and 88.36% and 87.31% when using the balanced training set. P-value is 0.18 (18%), which is calculated based on the distribution of accuracy over multiple running times, meaning that the difference is not statistically significant. In conclusion, for the real-world application in this thesis, we did not find a statistically significant difference between the supervised and semi-supervised approaches and labeled data is still vital for this real-world application.  === GPS-data har varit en viktig källa för forskare och företag i konstruktion och studier av transportmodeller. Detta eftersom GPS tillåter passiv informationsinsamling utan alltför mycket mänskligt deltagande, och på så sätt gör det möjligt att samla stora datamängder. Nyare forskning har visat att GPS-data kan användas för att lösa olika transportrelaterade problem med hjälp av maskininlärning. Ett av dessa problem är att bestämma syftet med olika stopplägen, vilket kan användas för att förbättra den dagliga driften av transportsystem. Denna avhandling undersöker huruvida användning av halvövervakade inlärningsmetoder för identifiering och klassificering av stoppplatser kan förbättra resultaten eftersom insamlingen av märkta data är dyr. Stoppdata för enskilda stopp som innehåller plats-, varaktighets- och fordonsinformation grupperas för att extrahera funktionerna för träning och skapa klusterdata. Klustdata märks av de manuellt märkta polygongränsande rutorna på kartan i fyra klasser: lastning, lossning, verkstad och annat. Djupa neurala nätverk med virtuell kontroversiell utbildning (VAT) som normaliseringsmetod tillämpas på klusterdata för att träna de övervakade och halvövervakade inlärningsmodellerna. Endast märkta data används i övervakat lärande, medan alla märkta och icke-märkta data används i halvövervakat lärande. Den resulterande noggrannheten för övervakat lärande och halvövervakat lärande är 90,16 % och 89,21 % vid tillämpning på den obalanserade träningssatsen och 88.36 % och 87.31 % när du använder en balanserad träningssats. P-värdet är 0,18 (18 %), vilket beräknas baserat på fördelningen av noggrannhet över flera körtider, vilket innebär att skillnaden inte är statistiskt signifikant. Sammanfattningsvis, för den verkliga applikationen i denna avhandling, fann vi ingen statistiskt signifikant skillnad mellan de övervakade och halvövervakade metoderna och märkt data är fortfarande viktigt för denna verkliga applikation.