Summary: | Reinforcement Learning is a promising approach to develop intelligent agents that can help game developers in testing new content. However, applying it to a game with stochastic transitions like Candy Crush Friends Saga (CCFS) presents some challenges. Previous works have proved that an agent trained only to reach the objective of a level is not able to generalize on new levels. Inspired by the way humans approach the game, we develop a two-step solution to tackle the lack of generalization. First, we let multiple agents learn different skills that can be re-used in high-level tasks, training them with rewards that are not directly related to the objective of a level. Then, we design two hybrid architectures, called High-Speed Hierarchy (HSH) and Average Bagging (AB), which allow us to combine the skills together and choose the action to take in the environment by considering multiple factors at the same time. Our results on CCFS highlight that learning skills with the proposed reward functions is effective, and leads to a higher proficiency than the baselines applying state of the art. Moreover, we show that AB exhibits a win rate on unseen levels that is twice as high as that of an agent trained only on reaching the objective of a level, and even surpasses human performance on one level. Overall, our solution is a step in the right direction to develop an automated agent that can be used in production, and we believe that with some extensions it can yield even better results. === Förstärkningsinlärning är en lovande metod när det kommer till att utveckla intelligenta agenter som kan stödja spelutvecklare i att testa nytt spelmaterial. Att använda intelligenta agenter på ett spel med stokastiska övergånger så som Candy Crush Friends Saga (CCFS) uppvisar en del utmaningar. Tidigare arbeten has visat att en agent som endast är tränad att klara av en spelnivås specifika objektiv inte lyckas generalisera till andra spelnivåer. Vi låter ett flertal agenter lära sig olika färdigheter som sedan kan återanvändas i överordnade uppgifter, sedan träna agenterna med belöning som inte är direkt relaterade till objektivet för den specifika nivån. Sedan designar vi två hybridarkitekturer, som vi kallar High-Speed Hierarchy (HSH) och Average Bagging (AB), som tillåter oss att kombinera de olika färdigheterna tillsammans och sedan välja den handling agenten tar i miljön genom att ta hänsyn till flera faktorer åt samma gång. Våra resultat på CCFS utmärker sig i den mening att agenter lär sig färdigheter med den föreslagna belöningsfunktionen effektivt, vilket leder till en högre skicklighet i jämförelse med referensagenter som använder sig av state-of-the-art metoder. Därutöver visar vi att AB påvisar en vinstfrekvens på osedda spelnivåer som är dubbelt så hög mot en agent tränad på att endast klara av en spelnivås specifika objektiv. AB överträffar till och med mänsklig prestation på en spelnivå. Våran lösning är ett steg i rätt riktning gällande utveckling av en automatiserad agent som kan användas i produktion, och vi tror att med viss utbyggnad är det möjligt att nå ännu högre resultat.
|