Adaptive network selection for moving agents using deep reinforcement learning

With the rapid development and deployment of “Internet of Things”-devices comes a new era of benefits to increase the efficiency of our everyday lives. Many of these devices rely on having an established network connection in order to operate at peak performance, but this requirement could be hard t...

Full description

Bibliographic Details
Main Author: Skagerström, William
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-292945
Description
Summary:With the rapid development and deployment of “Internet of Things”-devices comes a new era of benefits to increase the efficiency of our everyday lives. Many of these devices rely on having an established network connection in order to operate at peak performance, but this requirement could be hard to guarantee in the face of less supported infrastructure in certain parts of the world. Thus there is value in the concept of granting more information to said devices, which could allow them to take proactive actions in order to ensure that they meet certain expectations. One method is the ability to perform adaptive network selection, depending on both the availability of telecom operators within the region as well as their perceived performance. This paper outlines a methodology for the construction of an interactive environment from raw historical data which comes in the form of measurements already available in user equipment. An algorithm is then trained by exploring said environment using reinforcement learning, under the premise of having only limited information about its current whereabouts and target destination. The objective of agents within the environment is to select network operators over the course of a specified geographical route in order to maximize the perceived network performance. The results showcased that, given the existence of a policy that can grant an increase in the perceived performance, it will find it such a policy. Under circumstances where it cannot, it will approximate the performance of the best available operator. Said results showed promise of further development for methods that rely on this type of algorithmic behaviour, and could find interesting applications for the future, especially around instance areas where network infrastructure is still in development.   === Med den snabba utvecklingen och användningen av "Internet of Things-enheter kommer en ny era av fördelar som kan förbättra våra vardagliga liv. Många av dem här enheterna beror på en etablerad nätverksuppkoppling för att utföra sin funktion på dess bästa förmåga, men detta krav kan vara svårare att uppfylla om man finner sig i regioner med mindre utvecklad infrastruktur. På så sätt finns det värde i att kunna förse enheterna med mera information, som skulle kunna låta dem ta beslut angående hur dem vill hantera dessa situationer om dem vill uppnå sin optimala förmåga. En metod för att göra detta är förmågan att göra adaptiva nätverksval, beroende på både tillgängligheten och den uppfattade nätverkskvaliteten. Detta papper introducerar en metod för att skapa en interaktiv miljö från historisk data som kommer från mått tillgängliga i vanliga enheter. En algorithm tränas sedan genom att utforska denna miljö med hjälp av förstärkande inlärning, under förutsättningarna att man inte har något tidigare information förutom den lite information om den nuvarande platsen och destinationen. Målet för en agent är då att optimera den uppfattade nätverkskvaliteten genom att välja ut operatörer över en given geografisk väg. Resultatet visade att om det existerar en policy som kan ge en förbättring av prestandan, så kommer algorithmen att hitta den. Annars så kommer den approximera kvaliteten av den bästa operatörer inom området. Resultaten visade mycket god potential för framtida arbeten, och skulle kunna applicerat till områden då denna typ av algoritmiska beteenden skulle vara önskvärda, speciellt när man arbetar med områden där infrastruktur fortfarande är under konstruktion.