Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions
Network Function Virtualization (NFV) is the transition from proprietary hardware functions to virtualized counterparts of them within the telecommunication industry. These virtualized counterparts are known as Virtualized Network Functions (VNFs) and are the main building blocks of NFV. The transit...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2018
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-236100 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-236100 |
---|---|
record_format |
oai_dc |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Ignat, Simon Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
description |
Network Function Virtualization (NFV) is the transition from proprietary hardware functions to virtualized counterparts of them within the telecommunication industry. These virtualized counterparts are known as Virtualized Network Functions (VNFs) and are the main building blocks of NFV. The transition started 2012 and is still ongoing, with research and development moving at a high pace. It is believed that when using virtualization, both capital and operating expenses can be lowered as a result of easier deployments, cheaper systems and networks that can operate more autonomous. This thesis examines if the current state of NFV can lower the operating expenses while maintaining quality of service (QoS) high by using current state of the art machine learning algorithms. More specifically the thesis analyzes the problem of adaptive autoscaling of virtual machines (VMs) allocated by the VNFs with deep reinforcement learning (DRL). To analyze the task, the thesis implements a discrete time model for VNFs with the purpose of capturing the fundamental characteristics of the scaling operation. It also examines the learning and robustness/generalization of six state-of-the-art DRL algorithms. The algorithms are examined since they have fundamental differences in their properties, ranging from off-policy methods such as DQN to on-policy methods such as PPO Advantage Actor Critic. The policies are compared to a baseline P-controller to evaluate the performance with respect to simpler methods. The result from the model show that DRL needs around 100,000 samples to converge, which in a real setting would represent around 70 days of learning. The thesis also shows that the final policy applied by the agent does not show considerable improvements over a simple control algorithm with respect to reward and performance when multiple experiments with varying loads and configurations are tested. Due to the lack of data and slow real time systems, with robustness being an important consideration, the time to convergence requiredby a DRL agent is to long for an autoscaling solution to be deployed in the near future. Therefore, the author can not recommend DRL for autoscaling in VNFs given the current state of the technology. Instead the author recommend simpler methods, such as supervised machinelearning or classical control theory. === Network Function Virtualization (NFV) är övergången från proprietära hårdvarufunktioner till virtualiserade motsvarigheter av dem inom telekommunikationsindustrin. Dessa virtualiserade motsvarigheter är kända som Virtualized Network Functions (VNF) och kan ses som beståndsdelarna av NFV. Tankar om virtualisering startade 2012 och är fortfarande pågående, där forskning och utveckling fortskrider i snabb takt. Förhoppningen är att virtualiseringen ska sänka både kapital och driftkostnader till följd av enklare installationer, billigare system och mer autonoma lösningar. Det här examensarbetet undersöker om NFV:s nuvarande tillstånd kan sänka driftskostnaderna samtidigt som kvaliteten på tjänsten (QoS) hålls hög genom att använda maskininlärning. Mer specifikt undersöks Deep Reinforcment Learning (DRL) och problemet adaptiv autoskalning av virtuella maskiner som används av VNF:erna. För att analysera uppgiften implementerar examensarbetet en diskret model över VNF:s med syftet att fånga de fundamentala egenskaperna hos skalningsoperationer. Det granskar också lärandet och robustheten av sex DRL-algoritmer. Algoritmerna undersöks eftersom de har grundläggande skillnader i deras egenskaper, från off-policy-metoder så som DQN till on-policy-metoder såsom PPO Advantage Actor Critic. Algoritmerna jämförs sedan med en P-regulator för att utvärdera prestanda med hänsyn till enklare metoder. Resultatet från studien visar att DRL behöver cirka 100 000 interaktioner med modellen för att konvergera, vilket i en verklig miljö skulle motsvara cirka 70 dagars lärande. Examensarbetet visar också att de konvergerade algoritmerna inte visar avsevärda förbättringar över den enkla P-regulatorn när flera experiment med varierande belastningar och konfigurationer testas. På grund av bristen på data och det långsamma realtidssystem, där robusthet är ett viktigt övervägande, ses tiden för konvergens som krävs av en DRL-agent som ett stort problem. Därför kan författaren inte rekommendera DRL för autoskalning i NFV med tanke på teknikens nuvarande tillstånd. Istället rekommenderar författaren enklare metoder, såsom supervised machinelearning eller klassisk kontrollteori. |
author |
Ignat, Simon |
author_facet |
Ignat, Simon |
author_sort |
Ignat, Simon |
title |
Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
title_short |
Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
title_full |
Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
title_fullStr |
Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
title_full_unstemmed |
Deep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network Functions |
title_sort |
deep reinforcement learning for adaptive resource allocation in virtualized network functions |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2018 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-236100 |
work_keys_str_mv |
AT ignatsimon deepreinforcementlearningforadaptiveresourceallocationinvirtualizednetworkfunctions |
_version_ |
1718773971691765760 |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2361002018-10-17T06:03:15ZDeep Reinforcement Learning for Adaptive Resource Allocation in Virtualized Network FunctionsengIgnat, SimonKTH, Skolan för elektroteknik och datavetenskap (EECS)2018Computer and Information SciencesData- och informationsvetenskapNetwork Function Virtualization (NFV) is the transition from proprietary hardware functions to virtualized counterparts of them within the telecommunication industry. These virtualized counterparts are known as Virtualized Network Functions (VNFs) and are the main building blocks of NFV. The transition started 2012 and is still ongoing, with research and development moving at a high pace. It is believed that when using virtualization, both capital and operating expenses can be lowered as a result of easier deployments, cheaper systems and networks that can operate more autonomous. This thesis examines if the current state of NFV can lower the operating expenses while maintaining quality of service (QoS) high by using current state of the art machine learning algorithms. More specifically the thesis analyzes the problem of adaptive autoscaling of virtual machines (VMs) allocated by the VNFs with deep reinforcement learning (DRL). To analyze the task, the thesis implements a discrete time model for VNFs with the purpose of capturing the fundamental characteristics of the scaling operation. It also examines the learning and robustness/generalization of six state-of-the-art DRL algorithms. The algorithms are examined since they have fundamental differences in their properties, ranging from off-policy methods such as DQN to on-policy methods such as PPO Advantage Actor Critic. The policies are compared to a baseline P-controller to evaluate the performance with respect to simpler methods. The result from the model show that DRL needs around 100,000 samples to converge, which in a real setting would represent around 70 days of learning. The thesis also shows that the final policy applied by the agent does not show considerable improvements over a simple control algorithm with respect to reward and performance when multiple experiments with varying loads and configurations are tested. Due to the lack of data and slow real time systems, with robustness being an important consideration, the time to convergence requiredby a DRL agent is to long for an autoscaling solution to be deployed in the near future. Therefore, the author can not recommend DRL for autoscaling in VNFs given the current state of the technology. Instead the author recommend simpler methods, such as supervised machinelearning or classical control theory. Network Function Virtualization (NFV) är övergången från proprietära hårdvarufunktioner till virtualiserade motsvarigheter av dem inom telekommunikationsindustrin. Dessa virtualiserade motsvarigheter är kända som Virtualized Network Functions (VNF) och kan ses som beståndsdelarna av NFV. Tankar om virtualisering startade 2012 och är fortfarande pågående, där forskning och utveckling fortskrider i snabb takt. Förhoppningen är att virtualiseringen ska sänka både kapital och driftkostnader till följd av enklare installationer, billigare system och mer autonoma lösningar. Det här examensarbetet undersöker om NFV:s nuvarande tillstånd kan sänka driftskostnaderna samtidigt som kvaliteten på tjänsten (QoS) hålls hög genom att använda maskininlärning. Mer specifikt undersöks Deep Reinforcment Learning (DRL) och problemet adaptiv autoskalning av virtuella maskiner som används av VNF:erna. För att analysera uppgiften implementerar examensarbetet en diskret model över VNF:s med syftet att fånga de fundamentala egenskaperna hos skalningsoperationer. Det granskar också lärandet och robustheten av sex DRL-algoritmer. Algoritmerna undersöks eftersom de har grundläggande skillnader i deras egenskaper, från off-policy-metoder så som DQN till on-policy-metoder såsom PPO Advantage Actor Critic. Algoritmerna jämförs sedan med en P-regulator för att utvärdera prestanda med hänsyn till enklare metoder. Resultatet från studien visar att DRL behöver cirka 100 000 interaktioner med modellen för att konvergera, vilket i en verklig miljö skulle motsvara cirka 70 dagars lärande. Examensarbetet visar också att de konvergerade algoritmerna inte visar avsevärda förbättringar över den enkla P-regulatorn när flera experiment med varierande belastningar och konfigurationer testas. På grund av bristen på data och det långsamma realtidssystem, där robusthet är ett viktigt övervägande, ses tiden för konvergens som krävs av en DRL-agent som ett stort problem. Därför kan författaren inte rekommendera DRL för autoskalning i NFV med tanke på teknikens nuvarande tillstånd. Istället rekommenderar författaren enklare metoder, såsom supervised machinelearning eller klassisk kontrollteori. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-236100TRITA-EECS-EX ; 2018:622application/pdfinfo:eu-repo/semantics/openAccess |