Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles

Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batt...

Full description

Bibliographic Details
Main Author: Gillet, Olivier
Published: Télécom ParisTech 2007
Subjects:
Online Access:http://pastel.archives-ouvertes.fr/pastel-00002805
http://pastel.archives-ouvertes.fr/docs/00/50/05/79/PDF/thesis.pdf
id ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-00002805
record_format oai_dc
spelling ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-000028052013-01-07T17:41:32Z http://pastel.archives-ouvertes.fr/pastel-00002805 http://pastel.archives-ouvertes.fr/docs/00/50/05/79/PDF/thesis.pdf Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles Gillet, Olivier Indexation audio Transcription musicale Percussions Modèles de séquences Multimodalité Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image. 2007-06-21 PhD thesis Télécom ParisTech
collection NDLTD
sources NDLTD
topic Indexation audio
Transcription musicale
Percussions
Modèles de séquences
Multimodalité
spellingShingle Indexation audio
Transcription musicale
Percussions
Modèles de séquences
Multimodalité
Gillet, Olivier
Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
description Cette thèse tisse des liens entre les domaines de l'indexation audio et de l'analyse de séquences d'images, à travers le problème de l'analyse de l'accompagnement rythmique des signaux de musique. Nous étudions d'abord le problème de la transcription de la piste de batterie d'enregistrements musicaux à partir de la modalité audio seule. Après avoir présenté des pré-traitements permettant d'accentuer cette piste, nous utilisons des techniques d'apprentissage statistique sur une large gamme d'attributs pour réaliser la transcription. Nous introduisons également des approches supervisées et non supervisées pour améliorer la reconnaissance en exploitant la régularité des motifs rythmiques. Nous incorporons ensuite à ce système de transcription l'information visuelle provenant de caméras filmant le batteur. Différentes approches sont présentées pour détecter la position des éléments de la batterie dans la scène et pour associer les régions extraites à des catégories sonores. Des descripteurs d'intensité de mouvement sont ensuite utilisés pour la détection des frappes. Les résultats démontrent la capacité d'une approche multimodale à résoudre certaines des ambiguïtés propres à la transcription audio. Nous étendons enfin nos travaux aux clips vidéos, en tentant de mesurer de quelle manière la musique peut être illustrée par des images. Après avoir présenté ou introduit de nouvelles méthodes de structuration automatique des flux audio et vidéo à différents niveaux, nous définissons des mesures de synchronie sur les structures obtenues. Ces mesures, qui s'avèrent dépendantes du type de document musical, permettent des applications de recherche de musique par l'image.
author Gillet, Olivier
author_facet Gillet, Olivier
author_sort Gillet, Olivier
title Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
title_short Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
title_full Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
title_fullStr Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
title_full_unstemmed Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles
title_sort transcription des signaux percussifs. application à l'analyse de scènes musicales audiovisuelles
publisher Télécom ParisTech
publishDate 2007
url http://pastel.archives-ouvertes.fr/pastel-00002805
http://pastel.archives-ouvertes.fr/docs/00/50/05/79/PDF/thesis.pdf
work_keys_str_mv AT gilletolivier transcriptiondessignauxpercussifsapplicationalanalysedescenesmusicalesaudiovisuelles
_version_ 1716396435144966144