Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets

The recent advances in deep learning have made it state-of-the-art for many different tasks, making its potential usefulness for analyzing electroencephalography (EEG) data appealing. This study aims at automatic feature extraction and classification of likeability, valence, and arousal elicited by...

Full description

Bibliographic Details
Main Author: Söderqvist, Filip
Format: Others
Language:English
Published: KTH, Skolan för kemi, bioteknologi och hälsa (CBH) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-296703
id ndltd-UPSALLA1-oai-DiVA.org-kth-296703
record_format oai_dc
collection NDLTD
language English
format Others
sources NDLTD
topic Electroencephalography
Deep learning
Machine learning
Likeability
Valence
Arousal
Emotion detection
Elektroencefalografi
Djupinlärning
Maskininlärning
Omtyckthet
Valens
Aktiveringsgrad
Känslodetektion
Medical Engineering
Medicinteknik
spellingShingle Electroencephalography
Deep learning
Machine learning
Likeability
Valence
Arousal
Emotion detection
Elektroencefalografi
Djupinlärning
Maskininlärning
Omtyckthet
Valens
Aktiveringsgrad
Känslodetektion
Medical Engineering
Medicinteknik
Söderqvist, Filip
Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
description The recent advances in deep learning have made it state-of-the-art for many different tasks, making its potential usefulness for analyzing electroencephalography (EEG) data appealing. This study aims at automatic feature extraction and classification of likeability, valence, and arousal elicited by auditory stimuli from music by training deep neural networks (DNNs) on  minimally pre-processed multivariate EEG time series. Two data sets were collected, the first containing 840 samples from 21 subjects, the second containing 400 samples from a single subject. Each sample consists of a 30 second EEG stream which was recorded during music playback. Each subject in the multiple subject data set was played 40 different songs from 8 categories, after which they were asked to self-label their opinion of the song and the emotional response it elicited. Different pre- processing and data augmentation methods were tested on the data before it was fed to the DNNs. Three different network architectures were implemented and tested, including a one-dimensional translation of ResNet18, InceptionTime, and a novel architecture built upon from InceptionTime, dubbed EEGNet. The classification tasks were posed both as a binary and a three-class classification problem. The results from the DNNs were compared to three different methods of handcrafted feature extraction. The handcrafted features were used to train LightGBM models, which were used as a baseline. The experiments showed that the DNNs struggled to extract relevant features to discriminate between the different targets, as the results were close to random guessing. The experiments with the baseline models showed generalizability indications in the data, as all 36 experiments performed better than random guessing. The best results were a classification accuracy of 64 % and an AUC of 0.638 for valence on the multiple subject data set. The background study discovered many flaws and unclarities in the published work on the topic. Therefore, future work should not rely too much on these papers and explore other network architectures that can extract the relevant features to classify likeability and emotion from EEG data. === Djupinlärning har visat sig vara effektivt för många olika uppgifter, vilket gör det möjligt att det även kan användas för att analysera data från elektroencefalografi (EEG). Målet med denna studie är att genom två egeninsamlade dataset försöka klassificera huruvida någon gillar en låt eller inte samt vilka känslor låten väcker genom att träna djupa neurala nätverk (DNN) på minimalt pre-processade EEG-tidsserier.  För det första datasettet samlades 840 dataexempel in från 21 deltagare. Dessa fick lyssna på 30-sekunders snuttar av 40 olika låtar från 8 kategorier varvid de fick svara på frågor angående vad de tyckte om låten samt vilka känslor den väckte. Det andra datasettet samlade in 400 dataexempel från endast en deltagare. Datan blev behandlad med flera olika metoder för att öka antalet träningsexempel innan det blev visat för de neurala nätverken. Tre olika nätverksarkitekturer implementerades och testades; en endimensionell variant av ResNet18, InceptionTime samt en egenbyggd arkitektur som byggde vidare på InceptionTime, döpt till EEGNet. Nätverken tränades både för binär och tre-klass klassificering.  Resultaten från nätverken jämfördes med tre olika metoder för att bygga egna prediktorer från EEG-datan. Dessa prediktorer användes för att träna LightGBM modeller, vars resultat användes som baslinje. Experimenten visade att DNNsen hade svårt att extrahera relevanta prediktorer för att kunna diskriminera mellan de olika klasserna, då resultaten var nära till godtyckligt gissande. Experimenten med LightGBM modellerna och de handgjorda prediktorerna visade dock indikationer på att det finns relevant information i datan för att kunna prediktera ett visst utfall, då alla 36 experiment presterade bättre än godyckligt gissande. Det bästa resultatet var 64 % träffsäkerhet för valens och binär klassificering, med en AUC på 0.638, för datasettet med många deltagare. Bakgrundsstudien upptäckte många oklarheter och fel i flera av de artiklar som är publicerade på ämnet. Framtida arbete bör därför inte förlita sig på denna alltför mycket. Den bör fokusera på att utveckla arkitekturer som klarar att extrahera de relevanta prediktorer som behövs för att kunna prediktera huruvida någon tycker om en låt eller inte samt vilka känslor denna väckte. 
author Söderqvist, Filip
author_facet Söderqvist, Filip
author_sort Söderqvist, Filip
title Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
title_short Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
title_full Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
title_fullStr Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
title_full_unstemmed Emotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data sets
title_sort emotion detection from electroencephalography data with machine learning : classification of emotions elicited by auditory stimuli from music on self-collected data sets
publisher KTH, Skolan för kemi, bioteknologi och hälsa (CBH)
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-296703
work_keys_str_mv AT soderqvistfilip emotiondetectionfromelectroencephalographydatawithmachinelearningclassificationofemotionselicitedbyauditorystimulifrommusiconselfcollecteddatasets
AT soderqvistfilip kanslodetektionfranelektroencefalografidatamedmaskininlarningklassificeringavkanslorframkalladeavhorselstimulifranmusikpaegeninsamladedataset
_version_ 1719411031231430656
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2967032021-06-18T05:30:45ZEmotion Detection from Electroencephalography Data with Machine Learning : Classification of emotions elicited by auditory stimuli from music on self-collected data setsengKänslodetektion från Elektroencefalografidata med Maskininlärning : Klassificering av känslor framkallade av hörselstimuli från musik på egeninsamlade datasetSöderqvist, FilipKTH, Skolan för kemi, bioteknologi och hälsa (CBH)2021ElectroencephalographyDeep learningMachine learningLikeabilityValenceArousalEmotion detectionElektroencefalografiDjupinlärningMaskininlärningOmtyckthetValensAktiveringsgradKänslodetektionMedical EngineeringMedicinteknikThe recent advances in deep learning have made it state-of-the-art for many different tasks, making its potential usefulness for analyzing electroencephalography (EEG) data appealing. This study aims at automatic feature extraction and classification of likeability, valence, and arousal elicited by auditory stimuli from music by training deep neural networks (DNNs) on  minimally pre-processed multivariate EEG time series. Two data sets were collected, the first containing 840 samples from 21 subjects, the second containing 400 samples from a single subject. Each sample consists of a 30 second EEG stream which was recorded during music playback. Each subject in the multiple subject data set was played 40 different songs from 8 categories, after which they were asked to self-label their opinion of the song and the emotional response it elicited. Different pre- processing and data augmentation methods were tested on the data before it was fed to the DNNs. Three different network architectures were implemented and tested, including a one-dimensional translation of ResNet18, InceptionTime, and a novel architecture built upon from InceptionTime, dubbed EEGNet. The classification tasks were posed both as a binary and a three-class classification problem. The results from the DNNs were compared to three different methods of handcrafted feature extraction. The handcrafted features were used to train LightGBM models, which were used as a baseline. The experiments showed that the DNNs struggled to extract relevant features to discriminate between the different targets, as the results were close to random guessing. The experiments with the baseline models showed generalizability indications in the data, as all 36 experiments performed better than random guessing. The best results were a classification accuracy of 64 % and an AUC of 0.638 for valence on the multiple subject data set. The background study discovered many flaws and unclarities in the published work on the topic. Therefore, future work should not rely too much on these papers and explore other network architectures that can extract the relevant features to classify likeability and emotion from EEG data. Djupinlärning har visat sig vara effektivt för många olika uppgifter, vilket gör det möjligt att det även kan användas för att analysera data från elektroencefalografi (EEG). Målet med denna studie är att genom två egeninsamlade dataset försöka klassificera huruvida någon gillar en låt eller inte samt vilka känslor låten väcker genom att träna djupa neurala nätverk (DNN) på minimalt pre-processade EEG-tidsserier.  För det första datasettet samlades 840 dataexempel in från 21 deltagare. Dessa fick lyssna på 30-sekunders snuttar av 40 olika låtar från 8 kategorier varvid de fick svara på frågor angående vad de tyckte om låten samt vilka känslor den väckte. Det andra datasettet samlade in 400 dataexempel från endast en deltagare. Datan blev behandlad med flera olika metoder för att öka antalet träningsexempel innan det blev visat för de neurala nätverken. Tre olika nätverksarkitekturer implementerades och testades; en endimensionell variant av ResNet18, InceptionTime samt en egenbyggd arkitektur som byggde vidare på InceptionTime, döpt till EEGNet. Nätverken tränades både för binär och tre-klass klassificering.  Resultaten från nätverken jämfördes med tre olika metoder för att bygga egna prediktorer från EEG-datan. Dessa prediktorer användes för att träna LightGBM modeller, vars resultat användes som baslinje. Experimenten visade att DNNsen hade svårt att extrahera relevanta prediktorer för att kunna diskriminera mellan de olika klasserna, då resultaten var nära till godtyckligt gissande. Experimenten med LightGBM modellerna och de handgjorda prediktorerna visade dock indikationer på att det finns relevant information i datan för att kunna prediktera ett visst utfall, då alla 36 experiment presterade bättre än godyckligt gissande. Det bästa resultatet var 64 % träffsäkerhet för valens och binär klassificering, med en AUC på 0.638, för datasettet med många deltagare. Bakgrundsstudien upptäckte många oklarheter och fel i flera av de artiklar som är publicerade på ämnet. Framtida arbete bör därför inte förlita sig på denna alltför mycket. Den bör fokusera på att utveckla arkitekturer som klarar att extrahera de relevanta prediktorer som behövs för att kunna prediktera huruvida någon tycker om en låt eller inte samt vilka känslor denna väckte.  Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-296703TRITA-CBH-GRU ; 2021:077application/pdfinfo:eu-repo/semantics/openAccess