Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Orientador: Prof. Dr. Fabrício Olivetti de França === Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. === Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e p...

Full description

Bibliographic Details
Main Author: Sakurai, Rafael Guimarães
Other Authors: França, Fabricio Olivetti de
Format: Others
Language:Portuguese
Published: 2017
Subjects:
Online Access:http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
id ndltd-IBICT-oai-BDTD-106651
record_format oai_dc
collection NDLTD
language Portuguese
format Others
sources NDLTD
topic NEUROEVOLUÇÃO
REDES NEURAIS CONVOLUCIONAIS
JOGO GO
NEUROEVOLUTION
CONVOLUTIONAL NEURAL NETWORKS
GO GAME
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
spellingShingle NEUROEVOLUÇÃO
REDES NEURAIS CONVOLUCIONAIS
JOGO GO
NEUROEVOLUTION
CONVOLUTIONAL NEURAL NETWORKS
GO GAME
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
Sakurai, Rafael Guimarães
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
description Orientador: Prof. Dr. Fabrício Olivetti de França === Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. === Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo de Go, ii) a combinação dessas estratégias permitem a construção de um agente inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para aprender, com base em um jogador heurístico e posteriormente com base nos melhores agentes treinados, a posicionar as pedras para permitir a expansão do território, este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados em diferentes estágios e também a capturar pedras. Também foram treinados dois agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias específicas de captura e defesa das pedras. Em ambos os treinamentos foi possível notar que o conhecimento para resolver um problema era propagado para as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro. Foi possível constatar que este agente, jogando contra outros indivíduos da população, evoluiu na escolha de melhores estratégias, permitindo a dominação de territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go, e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber a evolução dos agentes para aprender as estratégias e comportamentos distintos de forma segmentada. O nível do agente inteligente gerado ainda está distante de um jogador profissional, porém ainda existem opções de melhorias para serem testadas com parametrização, reformulação da função de aptidão, entre outros. Esses resultados propõem novas possibilidades para a criação de agentes inteligentes para jogos complexos. === Go is a board game that draws a lot of attention in the Artificial Intelligence area, because it is a complex problem to solve and needs different strategies in order to obtain a good skill level in the game. By 2015, all the Go¿s best programs must start the match with advantage to win over a professional player, but in the end of 2015, the AlphaGo program was the first and, so far, the only one capable of beating a professional player without needing advantage, combining the use of deep convolutional neural networks to orientate the searches on Monte-Carlo trees. This dissertation has as main objective to create an intelligent agent of Go that decides its next movements based on current scenario of the board and in prediction models created for three specific strategies of the game. For this purpose, two hypothesis were tested: i) whether it is possible to specialize intelligent agents to learn partial strategies of Go game, ii) whether the combination of these strategies allows the construction of an intelligent agent to play Go. For the first hyphotesis, an agent was trained to learn, based on matches again a heuristic player and later based on the best trained agents, to position the stones to allow the expansion of territory, this agent learn to generalize this strategy against individuals trained in different stages and capture stones too. Two agents were also trained based on problem solving, in order to learn the specific strategies of catching and defense of stones. In both trainings were possible to note that the knowledge to solve a problem was propagated to the next generations of individuals, but the level of learning was low due to the short training. For the second hyphotesis, an agent was trained to decide which of the three specific strategies to use according to the current state of the board. It was possible to verify that this agent, playing against other individuals population, evolved in choosing better strategies, allowing territories domination, capture and defend stones. The agents was created using Convolution Neural Networks, without any previous knowledge about how to play Go, and the training was performed using Neuroevolution. As a result, it was possible to perceive the evolution of agents to learn different strategies and behaviours in a segmented way. The intelligent agent generated¿s skill still far from a professional player, however there are still options for improvement to be tested with parameterization, reformulation of fitness function, and others. These results propose new opportunities for the creation of intelligent agents for complex games.
author2 França, Fabricio Olivetti de
author_facet França, Fabricio Olivetti de
Sakurai, Rafael Guimarães
author Sakurai, Rafael Guimarães
author_sort Sakurai, Rafael Guimarães
title Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_short Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_fullStr Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full_unstemmed Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_sort neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo go
publishDate 2017
url http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
work_keys_str_mv AT sakurairafaelguimaraes neuroevolucaoaplicadanotreinamentoderedesneuraisconvolucionaisparaaprenderestrategiasespecificasdojogogo
_version_ 1718850561010302976
spelling ndltd-IBICT-oai-BDTD-1066512019-01-21T18:22:30Z Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go Sakurai, Rafael Guimarães França, Fabricio Olivetti de Martins Junior, David Corrêa Peres, Sarajane Marques NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC Orientador: Prof. Dr. Fabrício Olivetti de França Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo de Go, ii) a combinação dessas estratégias permitem a construção de um agente inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para aprender, com base em um jogador heurístico e posteriormente com base nos melhores agentes treinados, a posicionar as pedras para permitir a expansão do território, este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados em diferentes estágios e também a capturar pedras. Também foram treinados dois agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias específicas de captura e defesa das pedras. Em ambos os treinamentos foi possível notar que o conhecimento para resolver um problema era propagado para as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro. Foi possível constatar que este agente, jogando contra outros indivíduos da população, evoluiu na escolha de melhores estratégias, permitindo a dominação de territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go, e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber a evolução dos agentes para aprender as estratégias e comportamentos distintos de forma segmentada. O nível do agente inteligente gerado ainda está distante de um jogador profissional, porém ainda existem opções de melhorias para serem testadas com parametrização, reformulação da função de aptidão, entre outros. Esses resultados propõem novas possibilidades para a criação de agentes inteligentes para jogos complexos. Go is a board game that draws a lot of attention in the Artificial Intelligence area, because it is a complex problem to solve and needs different strategies in order to obtain a good skill level in the game. By 2015, all the Go¿s best programs must start the match with advantage to win over a professional player, but in the end of 2015, the AlphaGo program was the first and, so far, the only one capable of beating a professional player without needing advantage, combining the use of deep convolutional neural networks to orientate the searches on Monte-Carlo trees. This dissertation has as main objective to create an intelligent agent of Go that decides its next movements based on current scenario of the board and in prediction models created for three specific strategies of the game. For this purpose, two hypothesis were tested: i) whether it is possible to specialize intelligent agents to learn partial strategies of Go game, ii) whether the combination of these strategies allows the construction of an intelligent agent to play Go. For the first hyphotesis, an agent was trained to learn, based on matches again a heuristic player and later based on the best trained agents, to position the stones to allow the expansion of territory, this agent learn to generalize this strategy against individuals trained in different stages and capture stones too. Two agents were also trained based on problem solving, in order to learn the specific strategies of catching and defense of stones. In both trainings were possible to note that the knowledge to solve a problem was propagated to the next generations of individuals, but the level of learning was low due to the short training. For the second hyphotesis, an agent was trained to decide which of the three specific strategies to use according to the current state of the board. It was possible to verify that this agent, playing against other individuals population, evolved in choosing better strategies, allowing territories domination, capture and defend stones. The agents was created using Convolution Neural Networks, without any previous knowledge about how to play Go, and the training was performed using Neuroevolution. As a result, it was possible to perceive the evolution of agents to learn different strategies and behaviours in a segmented way. The intelligent agent generated¿s skill still far from a professional player, however there are still options for improvement to be tested with parameterization, reformulation of fitness function, and others. These results propose new opportunities for the creation of intelligent agents for complex games. 2017 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651 por http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730 Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=106651 info:eu-repo/semantics/openAccess application/pdf 122 f. : il. reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC instacron:UFABC