Classify Swedish bank transactions withearly and late fusion techniques

Categorising bank transactions to predened categories are essential for getting a good overview of ones personal nance. Tink provides a mobile app for automatic categorisation of bank transactions. Tink's categorisation approach is a clustering technique with longest prex match based on merchan...

Full description

Bibliographic Details
Main Author: SKEPPE, LOVISA
Format: Others
Language:English
Published: KTH, Skolan för datavetenskap och kommunikation (CSC) 2014
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-156312
Description
Summary:Categorising bank transactions to predened categories are essential for getting a good overview of ones personal nance. Tink provides a mobile app for automatic categorisation of bank transactions. Tink's categorisation approach is a clustering technique with longest prex match based on merchant.This thesis will examine if a machine learning model can learn to classify transactions based on its purchase, what was bought, instead of merchant.This thesis classies bank transactions in a supervised learning setting by exploring early and late fusion schemes on three types of modalities (text, amount,date) found in Swedish bank transactions. Experiments are carried out with Naive Bayes, Support Vector Machines and Decision Trees. The dierent fusionschemes are compared with no fusion, learned on only one modality, and stacked classication, learning models in a pipe-lined fashion.The early fusion concatenation schemes shows all worse performance than no fusion on the text modality. The late fusion experiments on the other hand shows no impact of modality fusion.Suggestions are made to change the feedback loop from user, to get more data labeled by users, which would potentially boost the other modalities importance === Att sköta sin privatekonomi med hjälp av kategorisering gör nog många människor omedvetet, en försöker helt enkelt få en känsla pa vad en lägger sina pengar på. För att kunna ge full översikt på hur ens privatekonomi ser ut, har Tink skapat en mobilapplikation for att automatiskt kategorisera banktransaktioner. Detta görs just nu med klustering och längsta prex matchning på forsäljningsställe. Kategoriseringen av banktransaktioner ger användaren en direkt återkoppling på hur pengaflödet ser ut samt till vad och när dessa köp görs. Den har uppsatsen kommer att undersoka om en maskininlärningsmodell kan lära sig att klassicera banktransaktioner baserat pa köp istället för försäljningsställe. Genom att undersöka två olika fusioneringsscheman på tre typer av modaliteter funna i banktransaktioner (text, pris och datum), ska vi forsoka uttröna dessa modaliteters påverkan på klassicering. De olika scheman är jamförda med ingen fusionering, dvs inlärning på endast en modalitet, och travad klassicering,dvs inlärning med era efterföljande modeller.Experimenten ar gjorda med supervised-learning och inlärningsmodellerna är Naive Bayes, Support Vector Machines samt Beslutstrad. Experimenten visar på att klassicering på text, alltså försäljningsställe ger bäst resultat i jämförelse med alla de andra experimenten. I de tidiga fusionsexperimenten visar alla modalitet-sammanslagningar sämre resultat än ingen fusion på bara text. De sena fusion experimenten visar å andra sidan ingen skillnad alls efter fusionering med modaliteternas pris och datum. Förslag på förbättrad klassicering på köp antas öka, alltså modaliteternas pris och datum bör vara mer betydande, om mer var datamärkt av användare.