Noisy recognition of perceptual mid-level features in music
Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artific...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2021
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-294229 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2942292021-05-18T05:23:48ZNoisy recognition of perceptual mid-level features in musicengIgenkänning av perceptuella särdrag i musik med hjälp av delvis övervakad träning med störningarMossmyr, SimonKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Computer and Information SciencesData- och informationsvetenskapSelf-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned. Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229TRITA-EECS-EX ; 2021:105application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
Computer and Information Sciences Data- och informationsvetenskap Mossmyr, Simon Noisy recognition of perceptual mid-level features in music |
description |
Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned. === Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas. |
author |
Mossmyr, Simon |
author_facet |
Mossmyr, Simon |
author_sort |
Mossmyr, Simon |
title |
Noisy recognition of perceptual mid-level features in music |
title_short |
Noisy recognition of perceptual mid-level features in music |
title_full |
Noisy recognition of perceptual mid-level features in music |
title_fullStr |
Noisy recognition of perceptual mid-level features in music |
title_full_unstemmed |
Noisy recognition of perceptual mid-level features in music |
title_sort |
noisy recognition of perceptual mid-level features in music |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2021 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229 |
work_keys_str_mv |
AT mossmyrsimon noisyrecognitionofperceptualmidlevelfeaturesinmusic AT mossmyrsimon igenkanningavperceptuellasardragimusikmedhjalpavdelvisovervakadtraningmedstorningar |
_version_ |
1719404984868536320 |