Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data

Genome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms...

Full description

Bibliographic Details
Main Author: Xin, Ren
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354
id ndltd-UPSALLA1-oai-DiVA.org-kth-280354
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2803542020-09-08T17:32:31ZMachine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study DataengXin, RenKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapGenome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms (SNPs) by selecting the ones associated with unipolar depression. We define and train a Convolutional Neural Network model with the new data containing only the selected SNPs. For comparison, we also train a logistic regression model with the new data and train both models with a same size data set containing SNPs randomly chosen from the total set. The results show that the selected SNPs have stronger prediction power than the random SNPs, the trained models with the selected SNPs have better performance than a nondiscriminating classifier; however, the CNN model does not perform better than the logistic regression model. These results are discussed, with suggestions for future improvements, such as means to increase the sample size and to reduce the feature size. Data från Genome-Wide Association (GWAS) används för att förutsäga kliniskt resultat av internetbaserad kognitiv beteendeterapi för patienter som lider av depression. Originaluppgifterna har en mycket liten provstorlek, men ett stort antal funktioner. Vi minskar antalet funktioner, som är enkla nukleotidpolymorfismer (SNP), genom att välja de som är associerade med unipolär depression. Vi definierar och tränar en Convolutional Neural Network-modell med den nya informationen som endast innehåller de valda SNP:erna. Som jämförelse tränar vi också en logistisk regressionsmodell med den nya datan och tränar båda modellerna med samma storlek som innehåller SNP:er som slumpmässigt valt från den totala uppsättningen. Resultaten visar att de valda SNP:erna har starkare förutsägelseskraft än de slumpmässiga SNP:erna, de tränade modellerna med de valda SNP:erna har bättre prestanda än en icke-diskriminerande klassificerare; CNN-modellen presterar emellertid inte bättre än den logistiska regressionsmodellen. Dessa resultat diskuteras med förslag på framtida förbättringar, till exempel medel för att öka provstorleken och minska funktionsstorleken. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354TRITA-EECS-EX ; 2020:587application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Xin, Ren
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
description Genome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms (SNPs) by selecting the ones associated with unipolar depression. We define and train a Convolutional Neural Network model with the new data containing only the selected SNPs. For comparison, we also train a logistic regression model with the new data and train both models with a same size data set containing SNPs randomly chosen from the total set. The results show that the selected SNPs have stronger prediction power than the random SNPs, the trained models with the selected SNPs have better performance than a nondiscriminating classifier; however, the CNN model does not perform better than the logistic regression model. These results are discussed, with suggestions for future improvements, such as means to increase the sample size and to reduce the feature size. === Data från Genome-Wide Association (GWAS) används för att förutsäga kliniskt resultat av internetbaserad kognitiv beteendeterapi för patienter som lider av depression. Originaluppgifterna har en mycket liten provstorlek, men ett stort antal funktioner. Vi minskar antalet funktioner, som är enkla nukleotidpolymorfismer (SNP), genom att välja de som är associerade med unipolär depression. Vi definierar och tränar en Convolutional Neural Network-modell med den nya informationen som endast innehåller de valda SNP:erna. Som jämförelse tränar vi också en logistisk regressionsmodell med den nya datan och tränar båda modellerna med samma storlek som innehåller SNP:er som slumpmässigt valt från den totala uppsättningen. Resultaten visar att de valda SNP:erna har starkare förutsägelseskraft än de slumpmässiga SNP:erna, de tränade modellerna med de valda SNP:erna har bättre prestanda än en icke-diskriminerande klassificerare; CNN-modellen presterar emellertid inte bättre än den logistiska regressionsmodellen. Dessa resultat diskuteras med förslag på framtida förbättringar, till exempel medel för att öka provstorleken och minska funktionsstorleken.
author Xin, Ren
author_facet Xin, Ren
author_sort Xin, Ren
title Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
title_short Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
title_full Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
title_fullStr Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
title_full_unstemmed Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
title_sort machine learning classification of response to internet-based cognitive-behavioural therapy using genome-wide association study data
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354
work_keys_str_mv AT xinren machinelearningclassificationofresponsetointernetbasedcognitivebehaviouraltherapyusinggenomewideassociationstudydata
_version_ 1719339477578547200