Increasingly Complex Environments in Deep Reinforcement Learning

In this thesis, we used deep reinforcement learning to train autonomous agents and evaluated the impact of increasing the complexity of the training environment over time. This was compared to using a fixed complexity. Also, we investigated the impact of using a pre-trained agent as a starting point...

Full description

Bibliographic Details
Main Authors: Eriksson, Oskar, Larsson, Mattias
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-259193
Description
Summary:In this thesis, we used deep reinforcement learning to train autonomous agents and evaluated the impact of increasing the complexity of the training environment over time. This was compared to using a fixed complexity. Also, we investigated the impact of using a pre-trained agent as a starting point for training in an environment with a different complexity, compared to an untrained agent. The scope was limited to only training and analyzing agents playing a variant of the 2D game Snake. Random obstacles were placed on the map, and complexity corresponds to the amount of obstacles. Performance was measured in terms of eaten fruits. The results showed benefits in overall performance for the agent trained in increasingly complex environments. With regard to previous research, it was concluded that this seems to hold generally, but more research is needed on the topic. Also, the results displayed benefits of using a pre-trained model as a starting point for training in a different complexity environment, which was hypothesized. === I denna studie använde vi deep reinforcement learning för att träna autonoma agenter och utvärderade inverkan av att använda miljöer med ökande komplexitet över tid. Detta jämfördes med att använda en fixerad komplexitet. Utöver detta jämförde vi att använda en tränad agent som startpunkt för träning i en miljö med en annan komplexitet, jämfört med att använda en otränad agent. Studien avgränsades till att bara träna och analysera agenter på en variant av 2D-spelet Snake. Hinder placerades slumpmässigt ut på kartan, och komplexiteten motsvarar antalet hinder. Prestationen mättes i antal frukter som agenten lyckades äta. Resultaten visade att agenten som tränades i miljöer med ökande komplexitet presterade bättre totalt sett. Med hänsyn till tidigare forskning drogs slutsatsen att detta verkar vara ett generellt fenomen, men att mer forskning behövs på ämnet. Vidare visade resultaten att det finns fördelar med att använda en redan tränad agent som startpunkt för träning i en miljö med en annan komplexitet, vilket var en del av författarnas hypotes.