Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
Orientador: Prof. Dr. Fabrício Olivetti de França === Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. === Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e p...
Main Author: | |
---|---|
Other Authors: | |
Format: | Others |
Language: | Portuguese |
Published: |
2017
|
Subjects: | |
Online Access: | http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651 |
id |
ndltd-IBICT-oai-BDTD-106651 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
Portuguese |
format |
Others
|
sources |
NDLTD |
topic |
NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC |
spellingShingle |
NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC Sakurai, Rafael Guimarães Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
description |
Orientador: Prof. Dr. Fabrício Olivetti de França === Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. === Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo
de Go, ii) a combinação dessas estratégias permitem a construção de um agente
inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para
aprender, com base em um jogador heurístico e posteriormente com base nos melhores
agentes treinados, a posicionar as pedras para permitir a expansão do território,
este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados
em diferentes estágios e também a capturar pedras. Também foram treinados dois
agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias
específicas de captura e defesa das pedras. Em ambos os treinamentos foi
possível notar que o conhecimento para resolver um problema era propagado para
as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao
pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir
qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro.
Foi possível constatar que este agente, jogando contra outros indivíduos da
população, evoluiu na escolha de melhores estratégias, permitindo a dominação de
territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes
Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go,
e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber
a evolução dos agentes para aprender as estratégias e comportamentos distintos de
forma segmentada. O nível do agente inteligente gerado ainda está distante de um
jogador profissional, porém ainda existem opções de melhorias para serem testadas
com parametrização, reformulação da função de aptidão, entre outros. Esses resultados
propõem novas possibilidades para a criação de agentes inteligentes para jogos
complexos. === Go is a board game that draws a lot of attention in the Artificial Intelligence
area, because it is a complex problem to solve and needs different strategies in order
to obtain a good skill level in the game. By 2015, all the Go¿s best programs must
start the match with advantage to win over a professional player, but in the end
of 2015, the AlphaGo program was the first and, so far, the only one capable of
beating a professional player without needing advantage, combining the use of deep
convolutional neural networks to orientate the searches on Monte-Carlo trees. This
dissertation has as main objective to create an intelligent agent of Go that decides
its next movements based on current scenario of the board and in prediction models
created for three specific strategies of the game. For this purpose, two hypothesis
were tested: i) whether it is possible to specialize intelligent agents to learn partial
strategies of Go game, ii) whether the combination of these strategies allows the
construction of an intelligent agent to play Go. For the first hyphotesis, an agent
was trained to learn, based on matches again a heuristic player and later based on
the best trained agents, to position the stones to allow the expansion of territory, this
agent learn to generalize this strategy against individuals trained in different stages
and capture stones too. Two agents were also trained based on problem solving,
in order to learn the specific strategies of catching and defense of stones. In both
trainings were possible to note that the knowledge to solve a problem was propagated
to the next generations of individuals, but the level of learning was low due to the
short training. For the second hyphotesis, an agent was trained to decide which of
the three specific strategies to use according to the current state of the board. It
was possible to verify that this agent, playing against other individuals population,
evolved in choosing better strategies, allowing territories domination, capture and
defend stones. The agents was created using Convolution Neural Networks, without
any previous knowledge about how to play Go, and the training was performed using
Neuroevolution. As a result, it was possible to perceive the evolution of agents to
learn different strategies and behaviours in a segmented way. The intelligent agent
generated¿s skill still far from a professional player, however there are still options for
improvement to be tested with parameterization, reformulation of fitness function,
and others. These results propose new opportunities for the creation of intelligent
agents for complex games. |
author2 |
França, Fabricio Olivetti de |
author_facet |
França, Fabricio Olivetti de Sakurai, Rafael Guimarães |
author |
Sakurai, Rafael Guimarães |
author_sort |
Sakurai, Rafael Guimarães |
title |
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
title_short |
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
title_full |
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
title_fullStr |
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
title_full_unstemmed |
Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go |
title_sort |
neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo go |
publishDate |
2017 |
url |
http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651 |
work_keys_str_mv |
AT sakurairafaelguimaraes neuroevolucaoaplicadanotreinamentoderedesneuraisconvolucionaisparaaprenderestrategiasespecificasdojogogo |
_version_ |
1718850561010302976 |
spelling |
ndltd-IBICT-oai-BDTD-1066512019-01-21T18:22:30Z Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go Sakurai, Rafael Guimarães França, Fabricio Olivetti de Martins Junior, David Corrêa Peres, Sarajane Marques NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC Orientador: Prof. Dr. Fabrício Olivetti de França Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017. Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo de Go, ii) a combinação dessas estratégias permitem a construção de um agente inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para aprender, com base em um jogador heurístico e posteriormente com base nos melhores agentes treinados, a posicionar as pedras para permitir a expansão do território, este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados em diferentes estágios e também a capturar pedras. Também foram treinados dois agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias específicas de captura e defesa das pedras. Em ambos os treinamentos foi possível notar que o conhecimento para resolver um problema era propagado para as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro. Foi possível constatar que este agente, jogando contra outros indivíduos da população, evoluiu na escolha de melhores estratégias, permitindo a dominação de territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go, e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber a evolução dos agentes para aprender as estratégias e comportamentos distintos de forma segmentada. O nível do agente inteligente gerado ainda está distante de um jogador profissional, porém ainda existem opções de melhorias para serem testadas com parametrização, reformulação da função de aptidão, entre outros. Esses resultados propõem novas possibilidades para a criação de agentes inteligentes para jogos complexos. Go is a board game that draws a lot of attention in the Artificial Intelligence area, because it is a complex problem to solve and needs different strategies in order to obtain a good skill level in the game. By 2015, all the Go¿s best programs must start the match with advantage to win over a professional player, but in the end of 2015, the AlphaGo program was the first and, so far, the only one capable of beating a professional player without needing advantage, combining the use of deep convolutional neural networks to orientate the searches on Monte-Carlo trees. This dissertation has as main objective to create an intelligent agent of Go that decides its next movements based on current scenario of the board and in prediction models created for three specific strategies of the game. For this purpose, two hypothesis were tested: i) whether it is possible to specialize intelligent agents to learn partial strategies of Go game, ii) whether the combination of these strategies allows the construction of an intelligent agent to play Go. For the first hyphotesis, an agent was trained to learn, based on matches again a heuristic player and later based on the best trained agents, to position the stones to allow the expansion of territory, this agent learn to generalize this strategy against individuals trained in different stages and capture stones too. Two agents were also trained based on problem solving, in order to learn the specific strategies of catching and defense of stones. In both trainings were possible to note that the knowledge to solve a problem was propagated to the next generations of individuals, but the level of learning was low due to the short training. For the second hyphotesis, an agent was trained to decide which of the three specific strategies to use according to the current state of the board. It was possible to verify that this agent, playing against other individuals population, evolved in choosing better strategies, allowing territories domination, capture and defend stones. The agents was created using Convolution Neural Networks, without any previous knowledge about how to play Go, and the training was performed using Neuroevolution. As a result, it was possible to perceive the evolution of agents to learn different strategies and behaviours in a segmented way. The intelligent agent generated¿s skill still far from a professional player, however there are still options for improvement to be tested with parameterization, reformulation of fitness function, and others. These results propose new opportunities for the creation of intelligent agents for complex games. 2017 info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis http://www.biblioteca.ufabc.edu.brhttp://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651 por http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730 Cover: http://biblioteca.ufabc.edu.brphp/capa.php?obra=106651 info:eu-repo/semantics/openAccess application/pdf 122 f. : il. reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC instacron:UFABC |