Noisy recognition of perceptual mid-level features in music

Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artific...

Full description

Bibliographic Details
Main Author: Mossmyr, Simon
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229
id ndltd-UPSALLA1-oai-DiVA.org-kth-294229
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2942292021-05-18T05:23:48ZNoisy recognition of perceptual mid-level features in musicengIgenkänning av perceptuella särdrag i musik med hjälp av delvis övervakad träning med störningarMossmyr, SimonKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Computer and Information SciencesData- och informationsvetenskapSelf-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned.  Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229TRITA-EECS-EX ; 2021:105application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle Computer and Information Sciences
Data- och informationsvetenskap
Mossmyr, Simon
Noisy recognition of perceptual mid-level features in music
description Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned.  === Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas.
author Mossmyr, Simon
author_facet Mossmyr, Simon
author_sort Mossmyr, Simon
title Noisy recognition of perceptual mid-level features in music
title_short Noisy recognition of perceptual mid-level features in music
title_full Noisy recognition of perceptual mid-level features in music
title_fullStr Noisy recognition of perceptual mid-level features in music
title_full_unstemmed Noisy recognition of perceptual mid-level features in music
title_sort noisy recognition of perceptual mid-level features in music
publisher KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate 2021
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229
work_keys_str_mv AT mossmyrsimon noisyrecognitionofperceptualmidlevelfeaturesinmusic
AT mossmyrsimon igenkanningavperceptuellasardragimusikmedhjalpavdelvisovervakadtraningmedstorningar
_version_ 1719404984868536320