Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens

Statistik som ämnesområde är i ständig utveckling. I takt med att datorers beräkningskapacitet stadigt förbättrats har mer beräkningsintensiva metoder som tidigare varit krångliga att tillämpa nu blivit lättillgängliga. Random Forest är ett exempel på en sådan metod som vuxit fram ur dessa premisser...

Full description

Bibliographic Details
Main Authors: Elfving, Jan, Kalucza, Sebastian
Format: Others
Language:Swedish
Published: Umeå universitet, Statistik 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184927
id ndltd-UPSALLA1-oai-DiVA.org-umu-184927
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-umu-1849272021-06-23T05:24:43ZRandom Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demenssweRandom Forest for Survival with Competing Risks: : Predicting dementiaElfving, JanKalucza, SebastianUmeå universitet, StatistikUmeå universitet, Statistik2021Probability Theory and StatisticsSannolikhetsteori och statistikStatistik som ämnesområde är i ständig utveckling. I takt med att datorers beräkningskapacitet stadigt förbättrats har mer beräkningsintensiva metoder som tidigare varit krångliga att tillämpa nu blivit lättillgängliga. Random Forest är ett exempel på en sådan metod som vuxit fram ur dessa premisser och visat sig fungera väl på en rad statistiska problem, prediktionsproblem inkluderat. En sådan problemtyp är s.k. överlevnadsanalys. Ett sätt att göra överlevnadsmodellen mer verklighetsnära är att utöka den till att även beakta konkurrerande händelser. Konkurrerande händelser är händelser som tävlar med den huvudhändelse som studeras. Genom att beakta dessa konkurrerande händelser kan mer korrekta överlevnadsskattningar göras. I den här studien avser vi predikera demens med en Random Forest överlevnadsmodell som tar hänsyn till konkurrerande händelser (RF-SRC). Det data som analysen bygger på är från Betula-studien, en studie över tid som syftar till att identifiera riskfaktorer för demens samt tidiga, signaler på demens. Datat innehåller en del bakgrundsvariabler samt resultat från ett antal minnestester som deltagarna ombetts utföra. Den huvudsakliga konkurrerande händelsen i det här fallet är att den studerade deltagaren dör. Som ett resultat av demensprediktering får vi en skattning av respektive förklaringsvariabels relativa betydelse. Med undantag för den självskrivna variabeln ålder när individ påbörjar sitt deltagande i studien, så placerar sig ett prospektivt minnestest högst (prosp). Andra betydelsefulla förklaringsvariabler var två episodiska minnestest (sptb, sptcrc), genvarianten apoE4 samt ett visuospatialt minnestest (block). Vid jämförelse med traditionell överlevnadsanalys i form av Cox-regression utan och med hänsyn till konkurrerande händelser ser vi att samtliga kontinuerliga variabler som rankas högt i RF-SRC- modellen är signifikanta i Cox-modellerna. Däremot skiljer sig styrkeförhållandet åt en del för de två kategoriska förklaringsvariablerna apoE4 och kön, där dessa generellt sett värderas högre i Cox-modellerna. Att beslutsträd med en mix av kategoriska och kontinuerliga förklaringsvariabler tenderar att underskatta kategoriska variabler stöds av tidigare forskning. Gällande prediktionsförmåga så gjordes en jämförelse mellan RF-SRC-modellen och andra relevanta modeller med C-index som jämförelsesmått. Slutsatsen var att RF-SRC-modellen presterande aningen sämre än den traditionella prediktionsmodellen för överlevnadsanalys (Cox-regression) på detta data. Aningen förvånande var att RF-SRC modellen även presterade aningen sämre än en enklare Random Forest-modell som inte tar hänsyn till konkurrerande händelser, även om denna skillnad var liten och kan tänkas bero på slumpen. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184927application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Swedish
format Others
sources NDLTD
topic Probability Theory and Statistics
Sannolikhetsteori och statistik
spellingShingle Probability Theory and Statistics
Sannolikhetsteori och statistik
Elfving, Jan
Kalucza, Sebastian
Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
description Statistik som ämnesområde är i ständig utveckling. I takt med att datorers beräkningskapacitet stadigt förbättrats har mer beräkningsintensiva metoder som tidigare varit krångliga att tillämpa nu blivit lättillgängliga. Random Forest är ett exempel på en sådan metod som vuxit fram ur dessa premisser och visat sig fungera väl på en rad statistiska problem, prediktionsproblem inkluderat. En sådan problemtyp är s.k. överlevnadsanalys. Ett sätt att göra överlevnadsmodellen mer verklighetsnära är att utöka den till att även beakta konkurrerande händelser. Konkurrerande händelser är händelser som tävlar med den huvudhändelse som studeras. Genom att beakta dessa konkurrerande händelser kan mer korrekta överlevnadsskattningar göras. I den här studien avser vi predikera demens med en Random Forest överlevnadsmodell som tar hänsyn till konkurrerande händelser (RF-SRC). Det data som analysen bygger på är från Betula-studien, en studie över tid som syftar till att identifiera riskfaktorer för demens samt tidiga, signaler på demens. Datat innehåller en del bakgrundsvariabler samt resultat från ett antal minnestester som deltagarna ombetts utföra. Den huvudsakliga konkurrerande händelsen i det här fallet är att den studerade deltagaren dör. Som ett resultat av demensprediktering får vi en skattning av respektive förklaringsvariabels relativa betydelse. Med undantag för den självskrivna variabeln ålder när individ påbörjar sitt deltagande i studien, så placerar sig ett prospektivt minnestest högst (prosp). Andra betydelsefulla förklaringsvariabler var två episodiska minnestest (sptb, sptcrc), genvarianten apoE4 samt ett visuospatialt minnestest (block). Vid jämförelse med traditionell överlevnadsanalys i form av Cox-regression utan och med hänsyn till konkurrerande händelser ser vi att samtliga kontinuerliga variabler som rankas högt i RF-SRC- modellen är signifikanta i Cox-modellerna. Däremot skiljer sig styrkeförhållandet åt en del för de två kategoriska förklaringsvariablerna apoE4 och kön, där dessa generellt sett värderas högre i Cox-modellerna. Att beslutsträd med en mix av kategoriska och kontinuerliga förklaringsvariabler tenderar att underskatta kategoriska variabler stöds av tidigare forskning. Gällande prediktionsförmåga så gjordes en jämförelse mellan RF-SRC-modellen och andra relevanta modeller med C-index som jämförelsesmått. Slutsatsen var att RF-SRC-modellen presterande aningen sämre än den traditionella prediktionsmodellen för överlevnadsanalys (Cox-regression) på detta data. Aningen förvånande var att RF-SRC modellen även presterade aningen sämre än en enklare Random Forest-modell som inte tar hänsyn till konkurrerande händelser, även om denna skillnad var liten och kan tänkas bero på slumpen.
author Elfving, Jan
Kalucza, Sebastian
author_facet Elfving, Jan
Kalucza, Sebastian
author_sort Elfving, Jan
title Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
title_short Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
title_full Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
title_fullStr Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
title_full_unstemmed Random Forest för överlevnadsanalys med konkurrerande utfall : Prediktion av demens
title_sort random forest för överlevnadsanalys med konkurrerande utfall : prediktion av demens
publisher Umeå universitet, Statistik
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:umu:diva-184927
work_keys_str_mv AT elfvingjan randomforestforoverlevnadsanalysmedkonkurrerandeutfallprediktionavdemens
AT kaluczasebastian randomforestforoverlevnadsanalysmedkonkurrerandeutfallprediktionavdemens
AT elfvingjan randomforestforsurvivalwithcompetingriskspredictingdementia
AT kaluczasebastian randomforestforsurvivalwithcompetingriskspredictingdementia
_version_ 1719411772553691136