Musical Instrument Recognition using the Scattering Transform

Thanks to the advancement of technological progress in networking and signal processing, we can access a large amount of musical content. In order for users to search among these vast catalogs, they need to have access to music-related information beyond the pure digital music file. Manual annotatio...

Full description

Bibliographic Details
Main Author: Cros Vila, Laura
Format: Others
Language:English
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-283597
Description
Summary:Thanks to the advancement of technological progress in networking and signal processing, we can access a large amount of musical content. In order for users to search among these vast catalogs, they need to have access to music-related information beyond the pure digital music file. Manual annotation of music is too expensive, therefore automated annotation would be of great use. A meaningful description of the musical pieces requires the incorporation of information about the instruments present in them. In this work, we present an approach for musical instrument recognition using the scattering transform, which is a transformation that gives a translation invariant representation, that is stable to deformations and preserves high frequency information for classication. We study recognition in both singleinstrument and multiple-instrument contexts. We compare the performance of models using the scattering transform to those using other standard features. We also examine the impact of the amount of training data. The experiments carried out do not show a clear superior performance of either feature representation. Still, the scattering transform is worth taking into account when choosing a way to extract features if we want to be able to characterize non-stationary signal structures. === Tack vare den tekniska utvecklingen i nätverk och signalbehandling kan vi få tillgång till en stor mängd musikaliskt innehåll. For att användare ska söka bland dessa stora kataloger måste de ha tillgång till musikrelaterad information utöver den rena digitala musikfilen. Eftersom den manuella annotationsprocessen skulle vara för dyr måste den automatiseras. En meningsfull beskrivning av musikstyckena kräver införlivande av information om instrumenten som finns i dem. I det här arbetet presenterar vi en metod for igenkänning av musikinstrument med hjälp av den scattering transform, som är en transformation som ger en översattnings-invariant representation, som är stabil för deformationer och bevarar högfrekvensinformation för klassicering. Vi studerar igenkännande i både enskilda instrument- och flera instrumentförhållanden. Vi jämför modellerna med den scattering transforms prestanda med de som använder andra standardfunktioner. Vi undersöker också effekterna av mangden traningsdata. Experimenten som utförs visar inte en tydlig överlagsen prestanda for någon av representationsföreställningarna jämfört med den andra. Fortfarande är den scattering transform värd att ta hänsyn till när man väljer ett sätt att extrahera funktioner om vi vill kunna karakterisera icke-stationära signalstrukturer.