JÄMFÖRELSE AV KLASSIFICERINGSMETODER PÅ DATA FRÅN BETULA-STUDIEN : En jämförande studie mellan Linjär Diskriminantanalys, Gradient Tree Boosting och Support Vector Machines

Det saknas idag resultat inom forskning som kan urskilja en klassificeringsmetod som konsekvent presterar bättre än övriga, vilken metod som presterar bäst beror mer på datats karaktäristika än själva metoden. Samtidigt är klassificering ett viktigt och användbart verktyg som används inom flera områ...

Full description

Bibliographic Details
Main Authors: Forslund, Isak, Öberg, Magnus
Format: Others
Language:Swedish
Published: Umeå universitet, Statistik 2017
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-137913
Description
Summary:Det saknas idag resultat inom forskning som kan urskilja en klassificeringsmetod som konsekvent presterar bättre än övriga, vilken metod som presterar bäst beror mer på datats karaktäristika än själva metoden. Samtidigt är klassificering ett viktigt och användbart verktyg som används inom flera områden, bland annat medicin där klassificeringsmetoder används i stor utsträckning och resultaten av klassificering kan vara livsavgörande. Det har i tidigare studier visats att kognitiva tester från Betula-studien har signifikant samband med insjuknande i demens upp till 10 år innan klinisk demens bekräftats. Det finns dock inget dokumenterat försök att prediktera demens genom klassificering med kognitiva data från Betula-studien. Syftet med denna uppsats är att undersöka hur tre olika etablerade klassificeringsmetoder, linjär diskriminantanalys, support vector machines, med polynom och radial kärna, samt gradient tree boosting presterar på ett datamaterial med tre klasser. Data kommer från Betula-studien och består av kognitiva minnestester och persondata, klasserna bestäms utifrån hur många år efter inkludering i studien en deltagare blir diagnostiserad med klinisk demens. Klass 1 utvecklade inte demens, klass 2 utvecklade demens mellan 11 och 21 år och klass 3 mellan 1 och 10 år. Eftersom fördelningen av klasserna är obalanserade, klass 1 består av ca 85% av alla observationer, undersöks även en balanserad version av datamaterialet. Resultaten visar på en viss skillnad i fördelningen av korrekta och felaktiga klassificeringar för de olika metoderna. Vad gäller andelen korrekta och felaktiga klassificeringar kan inte någon betydande skillnad påvisas. Slutsatsen är att det inte går att avgöra om någon metod presterar bättre än de övriga.