Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.

Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme d...

Full description

Bibliographic Details
Main Author: Celeny Fernandes Alves
Other Authors: Carlos Henrique Costa Ribeiro
Format: Others
Language:Portuguese
Published: Instituto Tecnológico de Aeronáutica 2007
Subjects:
Online Access:http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382
Description
Summary:Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.