Deep Reinforcement Learning for Downlink Power Control in Dense 5G Networks

This thesis examines the problem of downlink power allocation in dense 5Gnetworks, and attempts to develop a data-driven solution by employing deepreinforcement learning. We train and test multiple reinforcement learningagents using the deep Q-networks (DQN) algorithm, and the so-called Rainbowexten...

Full description

Bibliographic Details
Main Author: Saeidian, Sara
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-265675
Description
Summary:This thesis examines the problem of downlink power allocation in dense 5Gnetworks, and attempts to develop a data-driven solution by employing deepreinforcement learning. We train and test multiple reinforcement learningagents using the deep Q-networks (DQN) algorithm, and the so-called Rainbowextensions of DQN. The performance of each agent is tested on 5G UrbanMacro simulation scenarios, and is benchmarked against a fixed power allocationapproach. Our test results show that the DQN models are successful atimproving data rates at cell-edge, while generalizing well to previously unseensimulation scenarios. In addition, the agents induce throughput balancing effects,i.e., achieve fairness among users, in networks with full-downlink-buffertraffic by properly designing the reward signal. === Det här examensarbetet undersöker kraftallokering i nedlänksriktning för täta5G-nätverk och försöker utveckla en datadriven lösning genom användning avdeep reinforcement learning. Vi tränar och testar flera reinforcement learningagentermed deep Q-networks (DQN) algoritmen, och de så kallade ”Rainbowextensions” av DQN. Prestandan av varje agent testas på storskaliga tätortsscenarionför 5G, och jämförs med en fast kraftallokeringsmetod.Våra testresultatvisar att DQN-modellerna leverar högre överföringshastigheter vid cellkanten,samtidigt som metoden fungerar väl för okända simuleringsscenarion. Utöverhastighetsökningen så balanserar agenterna dataflödet, vilket leder till rättvisallokering bland användarna i nätverk med ”full-downlink-buffer”-trafik genomatt korrekt designa belöningssignalen.