Minimal Exploration in Episodic Reinforcement Learning

Exploration-exploitation trade-off is a fundamental dilemma that reinforcement learning algorithms face. This dilemma is also central to the design of various state of the art bandit algorithms. We take inspiration from these algorithms and try to design reinforcement learning algorithms in an episo...

Full description

Bibliographic Details
Main Author: Tripathi, Ardhendu Shekhar
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-233579
Description
Summary:Exploration-exploitation trade-off is a fundamental dilemma that reinforcement learning algorithms face. This dilemma is also central to the design of various state of the art bandit algorithms. We take inspiration from these algorithms and try to design reinforcement learning algorithms in an episodic setting. In this work, we develop two algorithms which are based on the principle of optimism in face of uncertainty to minimize exploration. The idea is that the agent follows the optimal policy for a surrogate model, named optimistic model, which is close enough to the former but leads to a higher longterm reward. We show extensively through experiments on synthetic toy MDP’s that the performance of our algorithms is in line (even better in the case where the reward dynamics are known) with the algorithms based on the Bayesian treatment of the problem and other algorithms based on the optimism in face of uncertainty principle. The algorithms suggested in this thesis trump the Bayesian algorithms in terms of the variance of the regret achieved by the algorithms over multiple runs. Another contribution is the derivation of several regret lower bounds,such as a problem specific (both, asymptotic and non-asymptotic) and a minimax regret lower bound, for any uniformly good algorithm in an episodic setting. === Avvägningen mellan upptäckande och utnyttjande är ett grundläggande dilemma som övervakade inlärningsalgoritmer handskas med. Det här dilemmat är också centralt i designen av diverse toppmoderna bandit-algoritmer. Vi inspireras av dessa algoritmer och försöker utforma övervakade inlärningsalgoritmer i en episodisk miljö. I det här arbetet utvecklar vi två algoritmer som är baserade på principen om optimism vid osäkerhet för att minimera upptäckande. Idén är att agenten följer den optimala policyn för en surrogatmodell som kallas optimistisk modell, som är tillräckligt nära ursprungsmodellen men leder till en högre långsiktig belöning. Vi visar utförligt genom experiment på syntetiska leksaks-MDP att algoritmernas prestanda är i linje med (till och med bättre när belöningsdynamiken är känd) algoritmerna grundade på den bayesiska behandlingen av problemet och andra algoritmer baserade på optimism vid osäkerhet. Algoritmerna som föreslås i den här avhandlingen presterar bättre än de bayesiska algoritmerna i varians av den ånger som uppnås av algoritmerna över många körningar. Ett annat bidrag är härledningen av flera nedre gränser, såsom en problem-specifik nedre gräns (både asymptotisk och icke-asymptotisk) och en nedre gräns enligt minmax-principen, för en godtycklig uniformt god algoritm i en episodisk miljö.