Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data
Genome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2020
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-280354 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2803542020-09-08T17:32:31ZMachine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study DataengXin, RenKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer and Information SciencesData- och informationsvetenskapGenome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms (SNPs) by selecting the ones associated with unipolar depression. We define and train a Convolutional Neural Network model with the new data containing only the selected SNPs. For comparison, we also train a logistic regression model with the new data and train both models with a same size data set containing SNPs randomly chosen from the total set. The results show that the selected SNPs have stronger prediction power than the random SNPs, the trained models with the selected SNPs have better performance than a nondiscriminating classifier; however, the CNN model does not perform better than the logistic regression model. These results are discussed, with suggestions for future improvements, such as means to increase the sample size and to reduce the feature size. Data från Genome-Wide Association (GWAS) används för att förutsäga kliniskt resultat av internetbaserad kognitiv beteendeterapi för patienter som lider av depression. Originaluppgifterna har en mycket liten provstorlek, men ett stort antal funktioner. Vi minskar antalet funktioner, som är enkla nukleotidpolymorfismer (SNP), genom att välja de som är associerade med unipolär depression. Vi definierar och tränar en Convolutional Neural Network-modell med den nya informationen som endast innehåller de valda SNP:erna. Som jämförelse tränar vi också en logistisk regressionsmodell med den nya datan och tränar båda modellerna med samma storlek som innehåller SNP:er som slumpmässigt valt från den totala uppsättningen. Resultaten visar att de valda SNP:erna har starkare förutsägelseskraft än de slumpmässiga SNP:erna, de tränade modellerna med de valda SNP:erna har bättre prestanda än en icke-diskriminerande klassificerare; CNN-modellen presterar emellertid inte bättre än den logistiska regressionsmodellen. Dessa resultat diskuteras med förslag på framtida förbättringar, till exempel medel för att öka provstorleken och minska funktionsstorleken. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354TRITA-EECS-EX ; 2020:587application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Xin, Ren Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
description |
Genome-Wide Association Study (GWAS) data is used to predict clinical outcome of Internet-based Cognitive-Behavioural Therapy for patients suffering from depression. The original data has a very small sample size, but a huge number of features. We reduce the number of Single Nucleotide Polymorphisms (SNPs) by selecting the ones associated with unipolar depression. We define and train a Convolutional Neural Network model with the new data containing only the selected SNPs. For comparison, we also train a logistic regression model with the new data and train both models with a same size data set containing SNPs randomly chosen from the total set. The results show that the selected SNPs have stronger prediction power than the random SNPs, the trained models with the selected SNPs have better performance than a nondiscriminating classifier; however, the CNN model does not perform better than the logistic regression model. These results are discussed, with suggestions for future improvements, such as means to increase the sample size and to reduce the feature size. === Data från Genome-Wide Association (GWAS) används för att förutsäga kliniskt resultat av internetbaserad kognitiv beteendeterapi för patienter som lider av depression. Originaluppgifterna har en mycket liten provstorlek, men ett stort antal funktioner. Vi minskar antalet funktioner, som är enkla nukleotidpolymorfismer (SNP), genom att välja de som är associerade med unipolär depression. Vi definierar och tränar en Convolutional Neural Network-modell med den nya informationen som endast innehåller de valda SNP:erna. Som jämförelse tränar vi också en logistisk regressionsmodell med den nya datan och tränar båda modellerna med samma storlek som innehåller SNP:er som slumpmässigt valt från den totala uppsättningen. Resultaten visar att de valda SNP:erna har starkare förutsägelseskraft än de slumpmässiga SNP:erna, de tränade modellerna med de valda SNP:erna har bättre prestanda än en icke-diskriminerande klassificerare; CNN-modellen presterar emellertid inte bättre än den logistiska regressionsmodellen. Dessa resultat diskuteras med förslag på framtida förbättringar, till exempel medel för att öka provstorleken och minska funktionsstorleken. |
author |
Xin, Ren |
author_facet |
Xin, Ren |
author_sort |
Xin, Ren |
title |
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
title_short |
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
title_full |
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
title_fullStr |
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
title_full_unstemmed |
Machine Learning Classification of Response to Internet-based Cognitive-Behavioural Therapy using Genome-Wide Association Study Data |
title_sort |
machine learning classification of response to internet-based cognitive-behavioural therapy using genome-wide association study data |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2020 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-280354 |
work_keys_str_mv |
AT xinren machinelearningclassificationofresponsetointernetbasedcognitivebehaviouraltherapyusinggenomewideassociationstudydata |
_version_ |
1719339477578547200 |