Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals

On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de ba...

Full description

Bibliographic Details
Main Author: Wood, Sean
Other Authors: Eck, Douglas
Language:en
Published: 2010
Subjects:
Online Access:http://hdl.handle.net/1866/3769
id ndltd-LACETR-oai-collectionscanada.gc.ca-QMU.1866-3769
record_format oai_dc
spelling ndltd-LACETR-oai-collectionscanada.gc.ca-QMU.1866-37692013-10-04T04:16:37ZNon-negative matrix decomposition approaches to frequency domain analysis of music audio signalsWood, SeanApprentissage machine non-superviséApprentissage machine semi-superviséFactorisation matricielle non-négativeEncodage parcimonieuxExtraction de l’information musicaleDétection de la hauteur de notesUnsupervised machine learningSemi-supervised machine learningNon-negative matrix factorizationSparse codingMusic information retrievalPitch detectionApplied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante.We study the application of unsupervised matrix decomposition algorithms such as Non-negative Matrix Factorization (NMF) to frequency domain representations of music audio signals. These algorithms, driven by a given reconstruction error function, learn a set of basis functions and a set of corresponding coefficients that approximate the input signal. We compare the use of three reconstruction error functions when NMF is applied to monophonic and harmonized musical scales: least squares, Kullback-Leibler divergence, and a recently introduced “phase-aware” divergence measure. Novel supervised methods for interpreting the resulting decompositions are presented and compared to previously used methods that rely on domain knowledge. Finally, the ability of the learned basis functions to generalize across musical parameter values including note amplitude, note duration and instrument type, are analyzed. To do so, we introduce two basis function labeling algorithms that outperform the previous labeling approach in the majority of our tests, instrument type with monophonic audio being the only notable exception.Eck, Douglas2010-05-31T14:33:07ZNO_RESTRICTION2010-05-31T14:33:07Z2010-04-012009-12Thèse ou Mémoire numérique / Electronic Thesis or Dissertationhttp://hdl.handle.net/1866/3769en
collection NDLTD
language en
sources NDLTD
topic Apprentissage machine non-supervisé
Apprentissage machine semi-supervisé
Factorisation matricielle non-négative
Encodage parcimonieux
Extraction de l’information musicale
Détection de la hauteur de notes
Unsupervised machine learning
Semi-supervised machine learning
Non-negative matrix factorization
Sparse coding
Music information retrieval
Pitch detection
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
spellingShingle Apprentissage machine non-supervisé
Apprentissage machine semi-supervisé
Factorisation matricielle non-négative
Encodage parcimonieux
Extraction de l’information musicale
Détection de la hauteur de notes
Unsupervised machine learning
Semi-supervised machine learning
Non-negative matrix factorization
Sparse coding
Music information retrieval
Pitch detection
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Wood, Sean
Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
description On étudie l’application des algorithmes de décomposition matricielles tel que la Factorisation Matricielle Non-négative (FMN), aux représentations fréquentielles de signaux audio musicaux. Ces algorithmes, dirigés par une fonction d’erreur de reconstruction, apprennent un ensemble de fonctions de base et un ensemble de coef- ficients correspondants qui approximent le signal d’entrée. On compare l’utilisation de trois fonctions d’erreur de reconstruction quand la FMN est appliquée à des gammes monophoniques et harmonisées: moindre carré, divergence Kullback-Leibler, et une mesure de divergence dépendente de la phase, introduite récemment. Des nouvelles méthodes pour interpréter les décompositions résultantes sont présentées et sont comparées aux méthodes utilisées précédemment qui nécessitent des connaissances du domaine acoustique. Finalement, on analyse la capacité de généralisation des fonctions de bases apprises par rapport à trois paramètres musicaux: l’amplitude, la durée et le type d’instrument. Pour ce faire, on introduit deux algorithmes d’étiquetage des fonctions de bases qui performent mieux que l’approche précédente dans la majorité de nos tests, la tâche d’instrument avec audio monophonique étant la seule exception importante. === We study the application of unsupervised matrix decomposition algorithms such as Non-negative Matrix Factorization (NMF) to frequency domain representations of music audio signals. These algorithms, driven by a given reconstruction error function, learn a set of basis functions and a set of corresponding coefficients that approximate the input signal. We compare the use of three reconstruction error functions when NMF is applied to monophonic and harmonized musical scales: least squares, Kullback-Leibler divergence, and a recently introduced “phase-aware” divergence measure. Novel supervised methods for interpreting the resulting decompositions are presented and compared to previously used methods that rely on domain knowledge. Finally, the ability of the learned basis functions to generalize across musical parameter values including note amplitude, note duration and instrument type, are analyzed. To do so, we introduce two basis function labeling algorithms that outperform the previous labeling approach in the majority of our tests, instrument type with monophonic audio being the only notable exception.
author2 Eck, Douglas
author_facet Eck, Douglas
Wood, Sean
author Wood, Sean
author_sort Wood, Sean
title Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
title_short Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
title_full Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
title_fullStr Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
title_full_unstemmed Non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
title_sort non-negative matrix decomposition approaches to frequency domain analysis of music audio signals
publishDate 2010
url http://hdl.handle.net/1866/3769
work_keys_str_mv AT woodsean nonnegativematrixdecompositionapproachestofrequencydomainanalysisofmusicaudiosignals
_version_ 1716602215865516032