Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models

Optimal control theory has a long history and broad applications. Motivated by the goal of obtaining insights through unification and taking advantage of the abundant capability to generate data, this thesis introduces some suboptimal schemes via abstract dynamic programming models. As our first con...

Full description

Bibliographic Details
Main Author: Li, Yuchao
Format: Others
Language:English
Published: KTH, Reglerteknik 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305283
http://nbn-resolving.de/urn:isbn:978-91-8040-060-2
id ndltd-UPSALLA1-oai-DiVA.org-kth-305283
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Optimal control
dynamic programming
model predictive control
Control Engineering
Reglerteknik
spellingShingle Optimal control
dynamic programming
model predictive control
Control Engineering
Reglerteknik
Li, Yuchao
Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
description Optimal control theory has a long history and broad applications. Motivated by the goal of obtaining insights through unification and taking advantage of the abundant capability to generate data, this thesis introduces some suboptimal schemes via abstract dynamic programming models. As our first contribution, we consider deterministic infinite horizon optimal control problems with nonnegative stage costs. We draw inspiration from the learning model predictive control scheme designed for continuous dynamics and iterative tasks, and propose a rollout algorithm that relies on sampled data generated by some base policy. The proposed algorithm is based on value and policy iteration ideas. It applies to deterministic problems with arbitrary state and control spaces, and arbitrary dynamics. It admits extensions to problems with trajectory constraints, and a multiagent structure. In addition, abstract dynamic programming models are used to analyze $\lambda$-policy iteration with randomization algorithms. In particular, we consider contractive models with infinite policies. We show that well-posedness of the $\lambda$-operator plays a central role in the algorithm. The operator is known to be well-posed for problems with finite states, but our analysis shows that it is also well-defined for the contractive models with infinite states. Similarly, the algorithm we analyze is known to converge for problems with finite policies, but we identify the conditions required to guarantee convergence with probability one when the policy space is infinite regardless of the number of states. Guided by the analysis, we exemplify a data-driven approximated implementation of the algorithm for estimation of optimal costs of constrained linear and nonlinear control problems. Numerical results indicate the potentials of this method in practice. === Teorin om optimal reglering har en lång historia och breda tillämpningsområden.I denna avhandling, som motiveras av att få insikter genom att förena och dra nyttaav den goda möjligheten att generera data, introduceras några suboptimala systemvia abstrakta modeller för dynamisk programmering.I vårt första bidrag betraktar vi ett deterministiskt optimalt regleringsproblemmed oändlig horisont och icke-negativa stegkostnader. Vi hämtar inspiration frånmodellprediktiv reglering med inlärning, som är utformad för system med kontinuerligdynamik och iterativa uppgifter, och föreslår en utrullningsalgoritm som bygger påsamplade data som genereras av en viss baspolicy. Den föreslagna algoritmen byggerpå idéer om värde- och policyiteration. Den är tillämpningsbar för deterministiskaproblem med godtyckliga tillstånds- och kontrollrum samt för system med godtyckligdynamik. Slutligen kan den utvidgas till problem med trajektoriebegränsningar ochen struktur med flera agenter.Dessutom används abstrakta modeller för dynamisk programmering för attanalysera lambdapolicyiteration med randomiseringsalgoritmer. Vi betraktar merspecifikt kontraktiva modeller med oändliga strategier. Vi visar att lambdaoperatorns välbestämdhet spelar en central roll i algoritmen. Det är känt att operatorn ärväldefinierad för problem med ändliga tillstånd, men vår analys visar att den ocksåär väldefinierad för de studerade kontraktiva modellerna med oändliga tillstånd.På samma sätt är det känt att den algoritm vi analyserar konvergerar för problemmed ändliga strategier, men vi identifierar de villkor som krävs för att garanterakonvergens med sannolikhet ett när policyrummet är oändligt, oberoende av antalettillstånd. Med hjälp av analysen exemplifierar vi en datadriven approximativ implementering av algoritmen för uppskattning av optimala kostnader för begränsadelinjära och icke-linjära regleringsproblem. Numeriska resultat visar på potentialen iatt använda denna metod i praktiken. === <p>QC 20211129</p>
author Li, Yuchao
author_facet Li, Yuchao
author_sort Li, Yuchao
title Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
title_short Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
title_full Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
title_fullStr Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
title_full_unstemmed Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
title_sort approximate solution methods to optimal control problems via dynamic programming models
publisher KTH, Reglerteknik
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305283
http://nbn-resolving.de/urn:isbn:978-91-8040-060-2
work_keys_str_mv AT liyuchao approximatesolutionmethodstooptimalcontrolproblemsviadynamicprogrammingmodels
_version_ 1723963143737049088
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-3052832021-11-30T05:50:16ZApproximate Solution Methods to Optimal Control Problems via Dynamic Programming ModelsengLi, Yuchao0000-0002-1857-2301KTH, ReglerteknikStockholm2021Optimal controldynamic programmingmodel predictive controlControl EngineeringReglerteknikOptimal control theory has a long history and broad applications. Motivated by the goal of obtaining insights through unification and taking advantage of the abundant capability to generate data, this thesis introduces some suboptimal schemes via abstract dynamic programming models. As our first contribution, we consider deterministic infinite horizon optimal control problems with nonnegative stage costs. We draw inspiration from the learning model predictive control scheme designed for continuous dynamics and iterative tasks, and propose a rollout algorithm that relies on sampled data generated by some base policy. The proposed algorithm is based on value and policy iteration ideas. It applies to deterministic problems with arbitrary state and control spaces, and arbitrary dynamics. It admits extensions to problems with trajectory constraints, and a multiagent structure. In addition, abstract dynamic programming models are used to analyze $\lambda$-policy iteration with randomization algorithms. In particular, we consider contractive models with infinite policies. We show that well-posedness of the $\lambda$-operator plays a central role in the algorithm. The operator is known to be well-posed for problems with finite states, but our analysis shows that it is also well-defined for the contractive models with infinite states. Similarly, the algorithm we analyze is known to converge for problems with finite policies, but we identify the conditions required to guarantee convergence with probability one when the policy space is infinite regardless of the number of states. Guided by the analysis, we exemplify a data-driven approximated implementation of the algorithm for estimation of optimal costs of constrained linear and nonlinear control problems. Numerical results indicate the potentials of this method in practice. Teorin om optimal reglering har en lång historia och breda tillämpningsområden.I denna avhandling, som motiveras av att få insikter genom att förena och dra nyttaav den goda möjligheten att generera data, introduceras några suboptimala systemvia abstrakta modeller för dynamisk programmering.I vårt första bidrag betraktar vi ett deterministiskt optimalt regleringsproblemmed oändlig horisont och icke-negativa stegkostnader. Vi hämtar inspiration frånmodellprediktiv reglering med inlärning, som är utformad för system med kontinuerligdynamik och iterativa uppgifter, och föreslår en utrullningsalgoritm som bygger påsamplade data som genereras av en viss baspolicy. Den föreslagna algoritmen byggerpå idéer om värde- och policyiteration. Den är tillämpningsbar för deterministiskaproblem med godtyckliga tillstånds- och kontrollrum samt för system med godtyckligdynamik. Slutligen kan den utvidgas till problem med trajektoriebegränsningar ochen struktur med flera agenter.Dessutom används abstrakta modeller för dynamisk programmering för attanalysera lambdapolicyiteration med randomiseringsalgoritmer. Vi betraktar merspecifikt kontraktiva modeller med oändliga strategier. Vi visar att lambdaoperatorns välbestämdhet spelar en central roll i algoritmen. Det är känt att operatorn ärväldefinierad för problem med ändliga tillstånd, men vår analys visar att den ocksåär väldefinierad för de studerade kontraktiva modellerna med oändliga tillstånd.På samma sätt är det känt att den algoritm vi analyserar konvergerar för problemmed ändliga strategier, men vi identifierar de villkor som krävs för att garanterakonvergens med sannolikhet ett när policyrummet är oändligt, oberoende av antalettillstånd. Med hjälp av analysen exemplifierar vi en datadriven approximativ implementering av algoritmen för uppskattning av optimala kostnader för begränsadelinjära och icke-linjära regleringsproblem. Numeriska resultat visar på potentialen iatt använda denna metod i praktiken. <p>QC 20211129</p>Licentiate thesis, monographinfo:eu-repo/semantics/masterThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-305283urn:isbn:978-91-8040-060-2TRITA-EECS-AVL ; 2021:76application/pdfinfo:eu-repo/semantics/openAccess