Evaluating recommendation systems for a sparse boolean dataset

Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains tw...

Full description

Bibliographic Details
Main Author: Daniels, Jonas
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2016
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850
id ndltd-UPSALLA1-oai-DiVA.org-kth-189850
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-1898502018-01-11T05:11:49ZEvaluating recommendation systems for a sparse boolean datasetengEvaluering av rekommendationssystem för ett glest booleskt datasetDaniels, JonasKTH, Skolan för datavetenskap och kommunikation (CSC)2016Computer SciencesDatavetenskap (datalogi)Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions.  The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer Sciences
Datavetenskap (datalogi)
spellingShingle Computer Sciences
Datavetenskap (datalogi)
Daniels, Jonas
Evaluating recommendation systems for a sparse boolean dataset
description Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions.  The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. === Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid.
author Daniels, Jonas
author_facet Daniels, Jonas
author_sort Daniels, Jonas
title Evaluating recommendation systems for a sparse boolean dataset
title_short Evaluating recommendation systems for a sparse boolean dataset
title_full Evaluating recommendation systems for a sparse boolean dataset
title_fullStr Evaluating recommendation systems for a sparse boolean dataset
title_full_unstemmed Evaluating recommendation systems for a sparse boolean dataset
title_sort evaluating recommendation systems for a sparse boolean dataset
publisher KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate 2016
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850
work_keys_str_mv AT danielsjonas evaluatingrecommendationsystemsforasparsebooleandataset
AT danielsjonas evalueringavrekommendationssystemforettglestboolesktdataset
_version_ 1718604388778377216