Predicting house prices with machine learning methods
In this study, the machine learning algorithms k-Nearest-Neighbours regression (k-NN) and Random Forest (RF) regression were used to predict house prices from a set of features in the Ames housing data set. The algorithms were selected from an assessment of previous research and the intent was to co...
Main Authors: | , |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2019
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-260140 |
Summary: | In this study, the machine learning algorithms k-Nearest-Neighbours regression (k-NN) and Random Forest (RF) regression were used to predict house prices from a set of features in the Ames housing data set. The algorithms were selected from an assessment of previous research and the intent was to compare their relative performance at this task. Software implementations for the experiment were selected from the scikit-learn Python library and executed to calculate the error between the actual and predicted sales price using four different metrics. Hyperparameters for the algorithms used were optimally selected and the cleaned data set was split using five-fold cross-validation to reduce the risk of bias. An optimal subset of hyperparameters for the two algorithms was selected through the grid search algorithm for the best prediction. The Random Forest was found to consistently perform better than the kNN algorithm in terms of smaller errors and be better suited as a prediction model for the house price problem. With a mean absolute error of about 9 % from the mean price in the best case, the practical usefulness of the prediction is rather limited to making basic valuations. === I den här studien användes maskininlärningsalgoritmerna k-Nearest-Neighbours regression och Random Forest regression för att förutsäga huspriserna från en uppsättning variabler i Ames Housing datasetet. Algoritmerna valdes utifrån en bedömning av tidigare forskning och avsikten var att jämföra deras relativa prestanda i lösandet av denna uppgift. För experimentet valdes programvaruimplementeringar från Pythonbiblioteket scikit-learn och kördes för att beräkna felet mellan det faktiska och förutsedda försäljningspriset med fyra olika mätsätt. Hyperparametrar för de använda algoritmerna valdes optimalt och den rengjorda datamängden delades med femfaldig korsvalidering för att minska risken för partiskhet med hänsyn till datat. En optimal delmängd av hyperparametrar valdes även ut med algoritmen grid search för bästa möjliga förutsägelse. Random Forest-algoritmen visade sig konsekvent prestera bättre än k-NN-algoritmen i bemärkelsen minimalt fel och är en mer lämplig modell för problemet. Med ett genomsnittligt absolutfel på ca 9 % från det genomsnittliga priset i bästafallet är den praktiska användbarheten av förutsägelsen tämligen begränsad till att göra grundläggande värderingar. |
---|