Evaluating recommendation systems for a sparse boolean dataset
Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains tw...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2016
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-189850 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1898502018-01-11T05:11:49ZEvaluating recommendation systems for a sparse boolean datasetengEvaluering av rekommendationssystem för ett glest booleskt datasetDaniels, JonasKTH, Skolan för datavetenskap och kommunikation (CSC)2016Computer SciencesDatavetenskap (datalogi)Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions. The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Computer Sciences Datavetenskap (datalogi) Daniels, Jonas Evaluating recommendation systems for a sparse boolean dataset |
description |
Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions. The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. === Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid. |
author |
Daniels, Jonas |
author_facet |
Daniels, Jonas |
author_sort |
Daniels, Jonas |
title |
Evaluating recommendation systems for a sparse boolean dataset |
title_short |
Evaluating recommendation systems for a sparse boolean dataset |
title_full |
Evaluating recommendation systems for a sparse boolean dataset |
title_fullStr |
Evaluating recommendation systems for a sparse boolean dataset |
title_full_unstemmed |
Evaluating recommendation systems for a sparse boolean dataset |
title_sort |
evaluating recommendation systems for a sparse boolean dataset |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2016 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850 |
work_keys_str_mv |
AT danielsjonas evaluatingrecommendationsystemsforasparsebooleandataset AT danielsjonas evalueringavrekommendationssystemforettglestboolesktdataset |
_version_ |
1718604388778377216 |