Evaluating recommendation systems for a sparse boolean dataset

Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains tw...

Full description

Bibliographic Details
Main Author:	Daniels, Jonas
Format:	Others
Language:	English
Published:	KTH, Skolan för datavetenskap och kommunikation (CSC) 2016
Subjects:	Computer Sciences Datavetenskap (datalogi)
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850

id	ndltd-UPSALLA1-oai-DiVA.org-kth-189850
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-1898502018-01-11T05:11:49ZEvaluating recommendation systems for a sparse boolean datasetengEvaluering av rekommendationssystem för ett glest booleskt datasetDaniels, JonasKTH, Skolan för datavetenskap och kommunikation (CSC)2016Computer SciencesDatavetenskap (datalogi)Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions. The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer Sciences Datavetenskap (datalogi)
spellingShingle	Computer Sciences Datavetenskap (datalogi) Daniels, Jonas Evaluating recommendation systems for a sparse boolean dataset
description	Recommendation systems is an area within machine learning that has become increasingly relevant with the expansion of the daily usage of technology. The most popular approaches when making a recommendation system are collaborative filtering and content-based. Collaborative filtering also contains two major sub approaches memory-based and model-based. This thesis will explore both content-based and collaborative filtering to use as a recommendation system on a sparse boolean dataset. For the content-based filtering approach term frequency-inverse document frequency algorithm was implemented. As a memory-based approach K-nearest neighbours method was conducted. For the model-based approach two different algorithms were implemented, singular value decomposition and alter least square. To evaluate, a cross-approach evaluator was used by looking at the recommendations as a search, a search that the users were not aware of. Key values such as the number of test users who could received a recommendation, time consumption, F1 score (precision and recall) and the dataset size were used to compare the methods and reach conclusions. The finding of the study was that collaborative filtering was the most accurate choice when it comes to sparse datasets. The implemented algorithm for the model-based collaborative filtering that performed most accurate was Singular value decomposition without any regularization against overfitting. A further step of this thesis would be to evaluate the different methods in an online environment with active users, giving feedback in real time. === Rekommendationssystem är ett område inom maskininlärning som har blivit allt vanligare i och med expansionen av den dagliga användningen av teknik. Det mest populära metoder när du gör ett rekommendationssystemet, “collaborative filtering” och “content-based filtering”. Collaborative filtering innehåller också två sub kategorier, “memory-based” och “model-based”. Denna avhandling kommer att undersöka både “content-based” och “collaborative filtering” för användning som ett rekommendationssystem för ett glest boolesk dataset. Som “content-based” strategi implementerades term frekvens omvänd dokument frekvens (TF-IDF) algoritmen. Som en “memory-based” strategi implementerades K-närmast grannarna (K-NN) metoden. För “model-based” angripsättet implementerades två olika algoritmer, singulärvärdesuppdelning (SVD) och altenerande minsta kvadrat metoden (ALS). För att kunna utvärdera metoderna mot varandra sågs rekommendationer som en sökning, en sökning som användarna inte var medvetna om att det gjort. Viktiga värden som antalet testanvändare som kunde fått en rekommendation, tidsåtgång, “F1 score” (precision och recall) och dataset storlek användes för att jämföra det olika metoderna och dra slutsatser. Resultatet av studien visar att “collaborative filtering” var den högst presterande när det gäller en gles datamängd. Den implementerade algoritmen för “model-based collaborative filtering“ som visat sig vara den mest exakta var SVD utan reglering mot “overfitting”. En framtida påbyggnad av denna rapport är att utvärdera olika metoder i en online-miljö med aktiva användare som kan ge respons i realtid.
author	Daniels, Jonas
author_facet	Daniels, Jonas
author_sort	Daniels, Jonas
title	Evaluating recommendation systems for a sparse boolean dataset
title_short	Evaluating recommendation systems for a sparse boolean dataset
title_full	Evaluating recommendation systems for a sparse boolean dataset
title_fullStr	Evaluating recommendation systems for a sparse boolean dataset
title_full_unstemmed	Evaluating recommendation systems for a sparse boolean dataset
title_sort	evaluating recommendation systems for a sparse boolean dataset
publisher	KTH, Skolan för datavetenskap och kommunikation (CSC)
publishDate	2016
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-189850
work_keys_str_mv	AT danielsjonas evaluatingrecommendationsystemsforasparsebooleandataset AT danielsjonas evalueringavrekommendationssystemforettglestboolesktdataset
_version_	1718604388778377216

Evaluating recommendation systems for a sparse boolean dataset

Similar Items