Noisy recognition of perceptual mid-level features in music

Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artific...

Full description

Bibliographic Details
Main Author:	Mossmyr, Simon
Format:	Others
Language:	English
Published:	KTH, Skolan för elektroteknik och datavetenskap (EECS) 2021
Subjects:	Computer and Information Sciences Data- och informationsvetenskap
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229

id	ndltd-UPSALLA1-oai-DiVA.org-kth-294229
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-kth-2942292021-05-18T05:23:48ZNoisy recognition of perceptual mid-level features in musicengIgenkänning av perceptuella särdrag i musik med hjälp av delvis övervakad träning med störningarMossmyr, SimonKTH, Skolan för elektroteknik och datavetenskap (EECS)2021Computer and Information SciencesData- och informationsvetenskapSelf-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned. Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229TRITA-EECS-EX ; 2021:105application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	English
format	Others
sources	NDLTD
topic	Computer and Information Sciences Data- och informationsvetenskap
spellingShingle	Computer and Information Sciences Data- och informationsvetenskap Mossmyr, Simon Noisy recognition of perceptual mid-level features in music
description	Self-training with noisy student is a consistency-based semi-supervised self- training method that achieved state-of-the-art accuracy on ImageNet image classification upon its release. It makes use of data noise and model noise when fitting a model to both labelled data and a large amount of artificially labelled data. In this work, we use self- training with noisy student to fit a VGG- style deep CNN model to a dataset of music piece excerpts labelled with perceptual mid-level features and compare its performance with the benchmark. To achieve this, we experiment with some common data warping augmentations and find that pitch shifting, time stretching, and time translation applied on the excerpt spectrograms can improve the model's invariance. We also apply stochastic depth to the VGG-style model — a method which randomly drops entire layers of a model during training—and find that it too can increase model invariance. This is a novel application since stochastic depth has not been used outside the ResNet architecture to our knowledge. Finally, we apply self-training with noisy student with the aforementioned methods as sources of noise and find that it reduces the mean squared error of the testing subset by an impressive amount, although the overall performance of the model can still be questioned. === Självträning med störningar är en delvis övervakad självträningsmetod som uppnådde en avsevärd pricksäkerhet på ImageNets bildigenkänningsprov. Den använder sig av dataförstärkning och störningar i modellen när den ska anpassas till en stor mängd artificiellt annoterad träningsdata tillsammans med vanlig träningsdata. I den här uppsatsen så använder vi självträning med störningar för att träna ett VGG-liknande faltningsnätverk med en datamängd av musikstycken annoterade med perceptuella mellanliggande särdrag. För att uppnå detta så börjar vi med att experimentera med dataförstärkning och finner att förändring av tonhöjd, tidsuttöjning och tidsförflyttning (applicerat direkt på musikstyckenas spektrogram) kan öka modellens tolerans för förändringar i datan. Vi experimenterar även med stokastiskt djup — en metod som inaktiverar hela lager av ett neuronnätverk under träning—och finner att detta också kan öka modellens tolerans. Detta är en nyanvändning av stokastiskt djup eftersom metoden såvitt vi känner till inte har använts i annat än varianter av ResNet. Slutligen så använder vi självträning med störningar med de tidigare nämnda metoderna och finner en avsevärd minskning i modellens fel, även om dess övergripande prestanda kan ifrågasättas.
author	Mossmyr, Simon
author_facet	Mossmyr, Simon
author_sort	Mossmyr, Simon
title	Noisy recognition of perceptual mid-level features in music
title_short	Noisy recognition of perceptual mid-level features in music
title_full	Noisy recognition of perceptual mid-level features in music
title_fullStr	Noisy recognition of perceptual mid-level features in music
title_full_unstemmed	Noisy recognition of perceptual mid-level features in music
title_sort	noisy recognition of perceptual mid-level features in music
publisher	KTH, Skolan för elektroteknik och datavetenskap (EECS)
publishDate	2021
url	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-294229
work_keys_str_mv	AT mossmyrsimon noisyrecognitionofperceptualmidlevelfeaturesinmusic AT mossmyrsimon igenkanningavperceptuellasardragimusikmedhjalpavdelvisovervakadtraningmedstorningar
_version_	1719404984868536320

Noisy recognition of perceptual mid-level features in music

Similar Items