[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS
[pt] Com recentes avanços em poder computacional, o uso de novos modelos de controle complexos se tornou viável para realizar o controle de quadrotores. Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep Reinforcement Learning, DRL), que pode produzir uma política de controle qu...
Other Authors: | |
---|---|
Language: | en |
Published: |
MAXWELL
2021
|
Subjects: | |
Online Access: | https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@1 https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@2 http://doi.org/10.17771/PUCRio.acad.54178 |
id |
ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-54178 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
en |
sources |
NDLTD |
topic |
[pt] VEICULO AEREO NAO TRIPULADO [pt] NAVEGACAO VISUAL [pt] SOFT ACTOR-CRITIC-SAC [pt] APRENDIZADO POR REFORCO PROFUNDO [pt] CONTROLE DE QUADROTOR [en] UNMANNED AERIAL VEHICLE [en] VISUAL NAVIGATION [en] SOFT ACTOR-CRITIC-SAC [en] DEEP REINFORCEMENT LEARNING [en] QUADROTOR CONTROL |
spellingShingle |
[pt] VEICULO AEREO NAO TRIPULADO [pt] NAVEGACAO VISUAL [pt] SOFT ACTOR-CRITIC-SAC [pt] APRENDIZADO POR REFORCO PROFUNDO [pt] CONTROLE DE QUADROTOR [en] UNMANNED AERIAL VEHICLE [en] VISUAL NAVIGATION [en] SOFT ACTOR-CRITIC-SAC [en] DEEP REINFORCEMENT LEARNING [en] QUADROTOR CONTROL [pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
description |
[pt] Com recentes avanços em poder computacional, o uso de novos modelos
de controle complexos se tornou viável para realizar o controle de quadrotores.
Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep
Reinforcement Learning, DRL), que pode produzir uma política de controle
que atende melhor as não-linearidades presentes no modelo do quadrotor que
um método de controle tradicional. Umas das não-linearidades importantes
presentes em veículos aéreos transportadores de carga são as propriedades
variantes no tempo, como tamanho e massa, causadas pela adição e remoção
de carga. A abordagem geral e domínio-agnóstica de um controlador por DRL
também o permite lidar com navegação visual, na qual a estimação de dados
de posição é incerta. Neste trabalho, aplicamos um algorítmo de Soft Actor-
Critic com o objeivo de projetar controladores para um quadrotor a fim de
realizar tarefas que reproduzem os desafios citados em um ambiente virtual.
Primeiramente, desenvolvemos dois controladores de condução por waypoint:
um controlador de baixo nível que atua diretamente em comandos para o motor
e um controlador de alto nível que interage em cascata com um controlador de
velocidade PID. Os controladores são então avaliados quanto à tarefa proposta
de coleta e alijamento de carga, que, dessa forma, introduz uma variável
variante no tempo. Os controladores concebidos são capazes de superar o
controlador clássico de posição PID com ganhos otimizados no curso proposto,
enquanto permanece agnóstico em relação a um conjunto de parâmetros de
simulação. Finalmente, aplicamos o mesmo algorítmo de DRL para desenvolver
um controlador que se utiliza de dados visuais para completar um curso de
corrida em uma simulação. Com este controlador, o quadrotor é capaz de
localizar portões utilizando uma câmera RGB-D e encontrar uma trajetória
que o conduz a atravessar o máximo possível de portões presentes no percurso. === [en] With recent advances in computational power, the use of novel, complex
control models has become viable for controlling quadrotors. One such method
is Deep Reinforcement Learning (DRL), which can devise a control policy
that better addresses non-linearities in the quadrotor model than traditional
control methods. An important non-linearity present in payload carrying air
vehicles are the inherent time-varying properties, such as size and mass,
caused by the addition and removal of cargo. The general, domain-agnostic
approach of the DRL controller also allows it to handle visual navigation,
in which position estimation data is unreliable. In this work, we employ a
Soft Actor-Critic algorithm to design controllers for a quadrotor to carry out
tasks reproducing the mentioned challenges in a virtual environment. First,
we develop two waypoint guidance controllers: a low-level controller that acts
directly on motor commands and a high-level controller that interacts in
cascade with a velocity PID controller. The controllers are then evaluated
on the proposed payload pickup and drop task, thereby introducing a timevarying
variable. The controllers conceived are able to outperform a traditional
positional PID controller with optimized gains in the proposed course, while
remaining agnostic to a set of simulation parameters. Finally, we employ the
same DRL algorithm to develop a controller that can leverage visual data to
complete a racing course in simulation. With this controller, the quadrotor is
able to localize gates using an RGB-D camera and devise a trajectory that
drives it to traverse as many gates in the racing course as possible. |
author2 |
WOUTER CAARLS |
author_facet |
WOUTER CAARLS |
title |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
title_short |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
title_full |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
title_fullStr |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
title_full_unstemmed |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS |
title_sort |
[pt] aprendizado por reforço profundo para controle de trajetória de um quadrotor em ambientes virtuais |
publisher |
MAXWELL |
publishDate |
2021 |
url |
https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@1 https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@2 http://doi.org/10.17771/PUCRio.acad.54178 |
_version_ |
1719459831093395456 |
spelling |
ndltd-puc-rio.br-oai-MAXWELL.puc-rio.br-541782021-08-13T05:12:19Z[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE DE TRAJETÓRIA DE UM QUADROTOR EM AMBIENTES VIRTUAIS [en] DEEP REINFORCEMENT LEARNING FOR QUADROTOR TRAJECTORY CONTROL IN VIRTUAL ENVIRONMENTS [pt] VEICULO AEREO NAO TRIPULADO[pt] NAVEGACAO VISUAL[pt] SOFT ACTOR-CRITIC-SAC[pt] APRENDIZADO POR REFORCO PROFUNDO[pt] CONTROLE DE QUADROTOR[en] UNMANNED AERIAL VEHICLE[en] VISUAL NAVIGATION[en] SOFT ACTOR-CRITIC-SAC[en] DEEP REINFORCEMENT LEARNING[en] QUADROTOR CONTROL[pt] Com recentes avanços em poder computacional, o uso de novos modelos de controle complexos se tornou viável para realizar o controle de quadrotores. Um destes métodos é o aprendizado por reforço profundo (do inglês, Deep Reinforcement Learning, DRL), que pode produzir uma política de controle que atende melhor as não-linearidades presentes no modelo do quadrotor que um método de controle tradicional. Umas das não-linearidades importantes presentes em veículos aéreos transportadores de carga são as propriedades variantes no tempo, como tamanho e massa, causadas pela adição e remoção de carga. A abordagem geral e domínio-agnóstica de um controlador por DRL também o permite lidar com navegação visual, na qual a estimação de dados de posição é incerta. Neste trabalho, aplicamos um algorítmo de Soft Actor- Critic com o objeivo de projetar controladores para um quadrotor a fim de realizar tarefas que reproduzem os desafios citados em um ambiente virtual. Primeiramente, desenvolvemos dois controladores de condução por waypoint: um controlador de baixo nível que atua diretamente em comandos para o motor e um controlador de alto nível que interage em cascata com um controlador de velocidade PID. Os controladores são então avaliados quanto à tarefa proposta de coleta e alijamento de carga, que, dessa forma, introduz uma variável variante no tempo. Os controladores concebidos são capazes de superar o controlador clássico de posição PID com ganhos otimizados no curso proposto, enquanto permanece agnóstico em relação a um conjunto de parâmetros de simulação. Finalmente, aplicamos o mesmo algorítmo de DRL para desenvolver um controlador que se utiliza de dados visuais para completar um curso de corrida em uma simulação. Com este controlador, o quadrotor é capaz de localizar portões utilizando uma câmera RGB-D e encontrar uma trajetória que o conduz a atravessar o máximo possível de portões presentes no percurso.[en] With recent advances in computational power, the use of novel, complex control models has become viable for controlling quadrotors. One such method is Deep Reinforcement Learning (DRL), which can devise a control policy that better addresses non-linearities in the quadrotor model than traditional control methods. An important non-linearity present in payload carrying air vehicles are the inherent time-varying properties, such as size and mass, caused by the addition and removal of cargo. The general, domain-agnostic approach of the DRL controller also allows it to handle visual navigation, in which position estimation data is unreliable. In this work, we employ a Soft Actor-Critic algorithm to design controllers for a quadrotor to carry out tasks reproducing the mentioned challenges in a virtual environment. First, we develop two waypoint guidance controllers: a low-level controller that acts directly on motor commands and a high-level controller that interacts in cascade with a velocity PID controller. The controllers are then evaluated on the proposed payload pickup and drop task, thereby introducing a timevarying variable. The controllers conceived are able to outperform a traditional positional PID controller with optimized gains in the proposed course, while remaining agnostic to a set of simulation parameters. Finally, we employ the same DRL algorithm to develop a controller that can leverage visual data to complete a racing course in simulation. With this controller, the quadrotor is able to localize gates using an RGB-D camera and devise a trajectory that drives it to traverse as many gates in the racing course as possible.MAXWELLWOUTER CAARLS2021-08-12TEXTOhttps://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@1https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54178@2http://doi.org/10.17771/PUCRio.acad.54178en |