Predicting Hourly Residential Energy Consumption using Random Forest and Support Vector Regression : An Analysis of the Impact of Household Clustering on the Performance Accuracy

The recent increase of smart meters in the residential sector has lead to large available datasets. The electricity consumption of individual households can be accessed in close to real time, and allows both the demand and supply side to extract valuable information for efficient energy management....

Full description

Bibliographic Details
Main Author: Hedén, William
Format: Others
Language:English
Published: KTH, Matematisk statistik 2016
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-187873
Description
Summary:The recent increase of smart meters in the residential sector has lead to large available datasets. The electricity consumption of individual households can be accessed in close to real time, and allows both the demand and supply side to extract valuable information for efficient energy management. Predicting electricity consumption should help utilities improve planning generation and demand side management, however this is not a trivial task as consumption at the individual household level is highly irregular. In this thesis the problem of improving load forecasting is ad-dressed using two machine learning methods, Support Vector Machines for regression (SVR) and Random Forest. For a customer base consisting of 187 households in Austin, Texas, pre-dictions are made on three spatial scales: (1) individual house-hold level (2) aggregate level (3) clusters of similar households according to their daily consumption profile. Results indicate that using Random Forest with K = 32 clusters yields the most accurate results in terms of the coefficient of variation. In an attempt to improve the aggregate model, it was shown that by adding features describing the clusters’ historic load, the performance of the aggregate model was improved using Random Forest with information added based on the grouping into K = 3 clusters. The extended aggregate model did not outperform the cluster-based models. The work has been carried out at the Swedish company Watty. Watty performs energy disaggregation and management, allowing the energy usage of entire homes to be diagnosed in detail. === Den senaste tidens ökning av smarta elmätare inom bostadssektorn medför att vi har tillgång till stora mängder data. Hushållens totala elkonsumption är tillgänglig i nära realtid, vilket tillåter både tillgångssidan och efterfrågesidan att nyttja informationen för effektiv energihantering. Att förutsäga elförbrukningen bör hjälpa elbolag att förbättra planering för elproduktion och hantering av efterfrågesidan. Dock är detta inte en trivial uppgift, då elkonsumptionen på individuell husnivå är mycket oregelbunden. Denna masteruppsats föreslår att använda två välkända maskininlärningsalgoritmer för att lösa problemet med att förbättra lastprognoser, och dessa är Support Vector Machines för regression (SVR) och Random Forest. För en kundbas bestående av 187 hushåll i Austin, Texas, gör vi prognoser baserat på tre tillvägagångssätt: (1) enskilda hushåll (2) aggregerad nivå (3) kluster av liknande hushåll enligt deras dagliga förbrukningsprofil. Resultaten visar att Random Forest med K = 32 kluster ger de mest precisa resultaten i termer av variationskoefficienten. I ett försök att förbättra den aggegerade modellen visade det sig att genom att lägga till ytterligare prediktionsvariabler som beskriver klustrens historiska last, kunde precisionen förbättras genom att använda Random Forest med information från K = 3 olika kluster. Den förbättrade aggregerade modellen presterade inte bättre jämfört med de klusterbaserade modellerna. Arbetet har utförts vid det svenska företaget Watty. Watty utför energidisaggregering och energihantering, vilket gör att bostäders energianvändning kan analyseras i detalj.