Jämförelse av avståndsmått för K-nearest neighbour-klassificering av resmål hos nya användare

Användarbeteende är idag ett område som blir allt viktigare för företag som vill erbjuda tjänster anpassade efter sina kunder. För att kunna konkurrera på marknaden vill företagen kunna föreslå sina kunder en tjänst redan innan kunderna vet om att de behöver den. Det finns ett flertal kända algoritm...

Full description

Bibliographic Details
Main Authors: Stiff, Philip, Holmqvist, Carl
Format: Others
Language:Swedish
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2016
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-186354
Description
Summary:Användarbeteende är idag ett område som blir allt viktigare för företag som vill erbjuda tjänster anpassade efter sina kunder. För att kunna konkurrera på marknaden vill företagen kunna föreslå sina kunder en tjänst redan innan kunderna vet om att de behöver den. Det finns ett flertal kända algoritmer för att uppnå detta. I denna studie undersöks K-nearest neighbour-algoritmen och hur den bör anpassas för att mäta likhet mellan instanser av kunder i en databas. För att göra detta jämförs en egenutvecklad metod baserad på instansernas generella förhållanden med några befintliga metoder. Jämförelsen genomförs på en databas innehållande användarkonton från ett resebolag och görs med ett flertal olika värden på K-nearest neighbour-algoritmens olika parametrar. För att studera prestandan för de olika metoderna jämförs träffsäkerheten i antal korrekta klassificeringar. Resultaten visar en mycket liten skillnad mellan metoderna vilket snarare indikerar en skevhet i den valda databasen än hur väl metoderna presterar. Därmed kan inte mycket sägas om hur de valda metoderna står sig mot varandra. === User behavior prediction is becoming increasingly important for companies that want to offer services tailored for their customers. In order to compete in the market, companies want to propose a service before customers know they want it. There are several known algorithms for achieving this. In this study we investigate the K-nearest neighbor algorithm and how it should be adapted to measure the similarity between instances of customers in a database. To do this we compare a new method based on the instances’ general relationships with some existing methods. The comparison is performed on a database containing user accounts from a travel agency and is made with several values for the K-nearest neighbor algorithms different parameters. To study the performance of the various methods their accuracy is compared. The results show a very slight difference between the methods which rather indicate a distortion in the database than how well the methods perform. Thus, not much can be said about the performance of the methods.