SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES

Traffic coordination is an essential challenge in vehicle automation. The challenge is not only about maximizing the revenue/productivity of a fleet of vehicles, but also about avoiding non feasible states such as collisions and low energy levels, which could make the fleet inoperable. The challenge...

Full description

Bibliographic Details
Main Author: Sridhar, Sabarish
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287450
id ndltd-UPSALLA1-oai-DiVA.org-kth-287450
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Autonomous Driving
Reinforcement Learning
Dyna-2 Architecture
Function Approximation
Feature Selection
Machine Learning.
Autonom körning
Förstärkningsinlärning
Dyna-2 Arkitektur
Funktionsapproximering
Attributval
Maskininlärning.
Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Autonomous Driving
Reinforcement Learning
Dyna-2 Architecture
Function Approximation
Feature Selection
Machine Learning.
Autonom körning
Förstärkningsinlärning
Dyna-2 Arkitektur
Funktionsapproximering
Attributval
Maskininlärning.
Computer and Information Sciences
Data- och informationsvetenskap
Sridhar, Sabarish
SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
description Traffic coordination is an essential challenge in vehicle automation. The challenge is not only about maximizing the revenue/productivity of a fleet of vehicles, but also about avoiding non feasible states such as collisions and low energy levels, which could make the fleet inoperable. The challenge is hard due to the complex nature of the real time traffic and the large state space involved. Reinforcement learning and simulation-based search techniques have been successful in handling complex problem with large state spaces [1] and can be used as potential candidates for traffic coordination. In this degree project, a variant of these techniques known as Dyna-2 [2] is investigated for traffic coordination. A long term memory of past experiences is approximated by a neural network and is used to guide a Temporal Difference (TD) search. Various features are proposed, evaluated and finally a feature representation is chosen to build the neural network model. The Dyna-2 Traffic Coordinator (TC) is investigated for its ability to provide supervision for handling vehicle bunching and charging. Two variants of traffic coordinators, one based on simple rules and another based on TD search are the existing baselines for the performance evaluation. The results indicate that by incorporating learning via a long-term memory, the Dyna-2 TC is robust to vehicle bunching and ensures a good balance in charge levels over time. The performance of the Dyna-2 TC depends on the choice of features used to build the function approximator, a bad feature choice does not provide good generalization and hence results in bad performance. On the other hand, the previous approaches based on rule-based planning and TD search made poor decisions resulting in collisions and low energy states. The search based approach is comparatively better than the rule-based approach, however it is not able to find an optimal solution due to the depth limitations. With the guidance from a long term memory, the search was able to generate a higher return and ensure a good balance in charge levels. === Trafikkoordinering är en grundläggande utmaning för att autonomisera fordon. Utmaningen ligger inte bara i att maximera inkomsten/produktiviteten hos en fordonsflotta utan även i att undvika olämpliga tillstånd, så som krockar och brist på energi vilka skulle kunna göra flottan obrukbar. Utmaningen är svår på grund av den komplexa naturen hos trafik i realtid och det stora tillståndsrummet som innefattas. Förstärkningsinlärning och simulationsbaserade söktekniker har varit framgångsrika metoder för att hantera komplexa problem med stora tillståndsrum [1] och kan ses som en potentiell kandidat för trafikkoordinering. Detta examensarbete undersöker en variant av dessa tekniker, känd som Dyna-2 [2], applicerat på trafikkoordinering. Ett långsiktigt minne av tidigare erfarenheter approximeras med ett neuron nät och används för att vägleda en Temporal Difference (TD) sökning. Olika attribut föreslås, utvärderas och sätts sedan samman till en representation att bygga nätverket kring. Dyna-2 Trafikkoordinator (TC) undersöks för dess färdighet att ge beslutsstöd för hantering av grupperade fordon och laddning. Två varianter av trafikkoordinerare, en baserad på enkla regler och en baserad på TD-sökningen, används som grund för utvärderingen av prestanda. Resultaten indikerar att genom inkludering av inlärning via ett långsiktigt minne så är Dyna-2 TC en robust metod för att hantera grupperade fordon och ger en god balans av laddningsnivå över tid. Prestandan hos Dyna-2 TC beror på valet av de attribut som används för att bygga approximeringsfunktionen, sämre val av attribut generaliserar inte bra vilket då resulterar i dålig prestanda. Å andra sidan, de tidigare tillvägagånssätten baserade på planering genom regler och TD-sökning tog dåliga beslut vilket resulterade i kollisioner och tillstånd med låga laddningsnivåer. Jämfört med att basera på regler så är den sökbaserade metoden bättre, den lyckades dock inte hitta en optimal lösning på grund av begränsningar hos sökdjupet. Med vägvisning från ett långsiktigt minne så sökningen kunde sökningen generera högre avkastning och säkerställa en god balans hos laddningsnivåerna.
author Sridhar, Sabarish
author_facet Sridhar, Sabarish
author_sort Sridhar, Sabarish
title SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
title_short SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
title_full SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
title_fullStr SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
title_full_unstemmed SELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLES
title_sort selection of features for ml based commanding of autonomous vehicles
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287450
work_keys_str_mv AT sridharsabarish selectionoffeaturesformlbasedcommandingofautonomousvehicles
_version_ 1719370055873986560
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2874502020-12-12T05:27:26ZSELECTION OF FEATURES FOR ML BASED COMMANDING OF AUTONOMOUS VEHICLESengSridhar, SabarishKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Autonomous DrivingReinforcement LearningDyna-2 ArchitectureFunction ApproximationFeature SelectionMachine Learning.Autonom körningFörstärkningsinlärningDyna-2 ArkitekturFunktionsapproximeringAttributvalMaskininlärning.Computer and Information SciencesData- och informationsvetenskapTraffic coordination is an essential challenge in vehicle automation. The challenge is not only about maximizing the revenue/productivity of a fleet of vehicles, but also about avoiding non feasible states such as collisions and low energy levels, which could make the fleet inoperable. The challenge is hard due to the complex nature of the real time traffic and the large state space involved. Reinforcement learning and simulation-based search techniques have been successful in handling complex problem with large state spaces [1] and can be used as potential candidates for traffic coordination. In this degree project, a variant of these techniques known as Dyna-2 [2] is investigated for traffic coordination. A long term memory of past experiences is approximated by a neural network and is used to guide a Temporal Difference (TD) search. Various features are proposed, evaluated and finally a feature representation is chosen to build the neural network model. The Dyna-2 Traffic Coordinator (TC) is investigated for its ability to provide supervision for handling vehicle bunching and charging. Two variants of traffic coordinators, one based on simple rules and another based on TD search are the existing baselines for the performance evaluation. The results indicate that by incorporating learning via a long-term memory, the Dyna-2 TC is robust to vehicle bunching and ensures a good balance in charge levels over time. The performance of the Dyna-2 TC depends on the choice of features used to build the function approximator, a bad feature choice does not provide good generalization and hence results in bad performance. On the other hand, the previous approaches based on rule-based planning and TD search made poor decisions resulting in collisions and low energy states. The search based approach is comparatively better than the rule-based approach, however it is not able to find an optimal solution due to the depth limitations. With the guidance from a long term memory, the search was able to generate a higher return and ensure a good balance in charge levels. Trafikkoordinering är en grundläggande utmaning för att autonomisera fordon. Utmaningen ligger inte bara i att maximera inkomsten/produktiviteten hos en fordonsflotta utan även i att undvika olämpliga tillstånd, så som krockar och brist på energi vilka skulle kunna göra flottan obrukbar. Utmaningen är svår på grund av den komplexa naturen hos trafik i realtid och det stora tillståndsrummet som innefattas. Förstärkningsinlärning och simulationsbaserade söktekniker har varit framgångsrika metoder för att hantera komplexa problem med stora tillståndsrum [1] och kan ses som en potentiell kandidat för trafikkoordinering. Detta examensarbete undersöker en variant av dessa tekniker, känd som Dyna-2 [2], applicerat på trafikkoordinering. Ett långsiktigt minne av tidigare erfarenheter approximeras med ett neuron nät och används för att vägleda en Temporal Difference (TD) sökning. Olika attribut föreslås, utvärderas och sätts sedan samman till en representation att bygga nätverket kring. Dyna-2 Trafikkoordinator (TC) undersöks för dess färdighet att ge beslutsstöd för hantering av grupperade fordon och laddning. Två varianter av trafikkoordinerare, en baserad på enkla regler och en baserad på TD-sökningen, används som grund för utvärderingen av prestanda. Resultaten indikerar att genom inkludering av inlärning via ett långsiktigt minne så är Dyna-2 TC en robust metod för att hantera grupperade fordon och ger en god balans av laddningsnivå över tid. Prestandan hos Dyna-2 TC beror på valet av de attribut som används för att bygga approximeringsfunktionen, sämre val av attribut generaliserar inte bra vilket då resulterar i dålig prestanda. Å andra sidan, de tidigare tillvägagånssätten baserade på planering genom regler och TD-sökning tog dåliga beslut vilket resulterade i kollisioner och tillstånd med låga laddningsnivåer. Jämfört med att basera på regler så är den sökbaserade metoden bättre, den lyckades dock inte hitta en optimal lösning på grund av begränsningar hos sökdjupet. Med vägvisning från ett långsiktigt minne så sökningen kunde sökningen generera högre avkastning och säkerställa en god balans hos laddningsnivåerna. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-287450TRITA-EECS-EX ; 2020:803application/pdfinfo:eu-repo/semantics/openAccess