Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources

Nous considérons le problème de la séparation de mélanges audio réverbérants déterminés et sous-déterminés, c'est-à-dire l'extraction du signal de chaque source dans un mélange multicanal. Nous proposons un cadre général de modélisation gaussienne où la contribution de chaque source aux ca...

Full description

Bibliographic Details
Main Author: Duong, Ngoc
Language:ENG
Published: Université Rennes 1 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00667117
http://tel.archives-ouvertes.fr/docs/00/66/71/17/PDF/thesis.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00667117
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006671172013-01-07T17:15:24Z http://tel.archives-ouvertes.fr/tel-00667117 http://tel.archives-ouvertes.fr/docs/00/66/71/17/PDF/thesis.pdf Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources Duong, Ngoc [INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:ACOU] Engineering Sciences/Acoustics [PHYS:MECA:ACOU] Physics/Mechanics/Acoustics séparation de mélanges audio réverbérants d'algorithmes Expectation-Maximization (EM) Nous considérons le problème de la séparation de mélanges audio réverbérants déterminés et sous-déterminés, c'est-à-dire l'extraction du signal de chaque source dans un mélange multicanal. Nous proposons un cadre général de modélisation gaussienne où la contribution de chaque source aux canaux du mélange dans le domaine temps-fréquence est modélisée par un vecteur aléatoire gaussien de moyenne nulle dont la covariance encode à la fois les caractéristiques spatiales et spectrales de la source. Afin de mieux modéliser la réverbération, nous nous affranchissons de l'hypothèse classique de bande étroite menant à une covariance spatiale de rang 1 et nous calculons la borne théorique de performance atteignable avec une covariance spatiale de rang plein. Les résultats expérimentaux indiquent une ugmentation du rapport Signal-à-Distorsion (SDR) de 6 dB dans un environnement faiblement à très réverbérant, ce qui valide cette généralisation. Nous considérons aussi l'utilisation de représentations temps-fréquence quadratiques et de l'échelle fréquentielle auditive ERB (equivalent rectangular bandwidth) pour accroître la quantité d'information exploitable et décroître le recouvrement entre les sources dans la représentation temps-fréquence. Après cette validation théorique du cadre proposé, nous nous focalisons sur l'estimation des paramètres du modèle à partir d'un signal de mélange donné dans un scénario pratique de séparation aveugle de sources. Nous proposons une famille d'algorithmes Expectation-Maximization (EM) pour estimer les paramètres au sens du maximum de vraisemblance (ML) ou du maximum a posteriori (MAP). Nous proposons une famille d'a priori de position spatiale inspirée par la théorie de l'acoustique des salles ainsi qu'un a priori de continuité spatiale. Nous étudions aussi l'utilisation de deux a priori spectraux précédemment utilisés dans un contexte monocanal ou multicanal de rang 1: un \textit{a priori} de continuité spatiale et un modèle de factorisation matricielle positive (NMF). Les résultats de séparation de sources obtenus par l'approche proposée sont comparés à plusieurs algorithmes de base et de l'état de l'art sur des mélanges simulés et sur des enregistrements réels dans des scénarios variés. 2011-11-15 ENG PhD thesis Université Rennes 1
collection NDLTD
language ENG
sources NDLTD
topic [INFO:INFO_TS] Computer Science/Signal and Image Processing
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:ACOU] Engineering Sciences/Acoustics
[PHYS:MECA:ACOU] Physics/Mechanics/Acoustics
séparation de mélanges audio réverbérants
d'algorithmes Expectation-Maximization (EM)
spellingShingle [INFO:INFO_TS] Computer Science/Signal and Image Processing
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:ACOU] Engineering Sciences/Acoustics
[PHYS:MECA:ACOU] Physics/Mechanics/Acoustics
séparation de mélanges audio réverbérants
d'algorithmes Expectation-Maximization (EM)
Duong, Ngoc
Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
description Nous considérons le problème de la séparation de mélanges audio réverbérants déterminés et sous-déterminés, c'est-à-dire l'extraction du signal de chaque source dans un mélange multicanal. Nous proposons un cadre général de modélisation gaussienne où la contribution de chaque source aux canaux du mélange dans le domaine temps-fréquence est modélisée par un vecteur aléatoire gaussien de moyenne nulle dont la covariance encode à la fois les caractéristiques spatiales et spectrales de la source. Afin de mieux modéliser la réverbération, nous nous affranchissons de l'hypothèse classique de bande étroite menant à une covariance spatiale de rang 1 et nous calculons la borne théorique de performance atteignable avec une covariance spatiale de rang plein. Les résultats expérimentaux indiquent une ugmentation du rapport Signal-à-Distorsion (SDR) de 6 dB dans un environnement faiblement à très réverbérant, ce qui valide cette généralisation. Nous considérons aussi l'utilisation de représentations temps-fréquence quadratiques et de l'échelle fréquentielle auditive ERB (equivalent rectangular bandwidth) pour accroître la quantité d'information exploitable et décroître le recouvrement entre les sources dans la représentation temps-fréquence. Après cette validation théorique du cadre proposé, nous nous focalisons sur l'estimation des paramètres du modèle à partir d'un signal de mélange donné dans un scénario pratique de séparation aveugle de sources. Nous proposons une famille d'algorithmes Expectation-Maximization (EM) pour estimer les paramètres au sens du maximum de vraisemblance (ML) ou du maximum a posteriori (MAP). Nous proposons une famille d'a priori de position spatiale inspirée par la théorie de l'acoustique des salles ainsi qu'un a priori de continuité spatiale. Nous étudions aussi l'utilisation de deux a priori spectraux précédemment utilisés dans un contexte monocanal ou multicanal de rang 1: un \textit{a priori} de continuité spatiale et un modèle de factorisation matricielle positive (NMF). Les résultats de séparation de sources obtenus par l'approche proposée sont comparés à plusieurs algorithmes de base et de l'état de l'art sur des mélanges simulés et sur des enregistrements réels dans des scénarios variés.
author Duong, Ngoc
author_facet Duong, Ngoc
author_sort Duong, Ngoc
title Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
title_short Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
title_full Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
title_fullStr Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
title_full_unstemmed Modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
title_sort modélisation gaussienne de rang plein des mélanges audio convolutifs appliquée à la séparation de sources
publisher Université Rennes 1
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00667117
http://tel.archives-ouvertes.fr/docs/00/66/71/17/PDF/thesis.pdf
work_keys_str_mv AT duongngoc modelisationgaussiennederangpleindesmelangesaudioconvolutifsappliqueealaseparationdesources
_version_ 1716395376803577856