Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiov...
Main Author: | |
---|---|
Language: | FRE |
Published: |
Université Paul Sabatier - Toulouse III
2004
|
Subjects: | |
Online Access: | http://tel.archives-ouvertes.fr/tel-00008755 http://tel.archives-ouvertes.fr/docs/00/04/78/39/PDF/tel-00008755.pdf http://tel.archives-ouvertes.fr/docs/00/04/78/39/ANNEX/tel-00008755.ppt |
id |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00008755 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-000087552013-01-07T19:09:09Z http://tel.archives-ouvertes.fr/tel-00008755 http://tel.archives-ouvertes.fr/docs/00/04/78/39/PDF/tel-00008755.pdf http://tel.archives-ouvertes.fr/docs/00/04/78/39/ANNEX/tel-00008755.ppt Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle PINQUIER, Julien [INFO:INFO_HC] Computer Science/Human-Computer Interaction indexation sonore structuration audiovisuelle classification énergie entropie segmentation parole musique jingles sons clés applaudissements rires mots clés thèmes Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés. 2004-12-20 FRE PhD thesis Université Paul Sabatier - Toulouse III |
collection |
NDLTD |
language |
FRE |
sources |
NDLTD |
topic |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction indexation sonore structuration audiovisuelle classification énergie entropie segmentation parole musique jingles sons clés applaudissements rires mots clés thèmes |
spellingShingle |
[INFO:INFO_HC] Computer Science/Human-Computer Interaction indexation sonore structuration audiovisuelle classification énergie entropie segmentation parole musique jingles sons clés applaudissements rires mots clés thèmes PINQUIER, Julien Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
description |
Le développement croissant des données numériques et l'explosion des accès multimédia à l'information, sont confrontés au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives à l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la musique et les sons clés (jingles, sons caractéristiques, mots clés...). Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation de l'entropie, la durée des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec celle issue de la modulation de l'énergie à quatre hertz. Des expériences sur un corpus radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de classification correcte supérieur à 90%. Le système est ensuite comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système est simple par sa mise en œuvre mais rapide et très efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est présente. Il y a seulement deux omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont modélisés à l'aide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette première étude par des résultats encourageants. La détection de mots clés est effectuée de manière classique : il ne s'agit pas ici d'améliorer les systèmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal, météo, documentaire...). Grâce à l'extraction de ces composantes primaires, les émissions audiovisuelles peuvent être annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La première étude permet une détection d'un motif récurrent dans une collection d'émissions, dites de plateau, alors que la seconde réalise la structuration en thèmes d'un journal télévisé. Quelques pistes de réflexions sur l'apport de l'analyse vidéo sont développées et les besoins futurs sont explorés. |
author |
PINQUIER, Julien |
author_facet |
PINQUIER, Julien |
author_sort |
PINQUIER, Julien |
title |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
title_short |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
title_full |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
title_fullStr |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
title_full_unstemmed |
Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
title_sort |
indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle |
publisher |
Université Paul Sabatier - Toulouse III |
publishDate |
2004 |
url |
http://tel.archives-ouvertes.fr/tel-00008755 http://tel.archives-ouvertes.fr/docs/00/04/78/39/PDF/tel-00008755.pdf http://tel.archives-ouvertes.fr/docs/00/04/78/39/ANNEX/tel-00008755.ppt |
work_keys_str_mv |
AT pinquierjulien indexationsonorerecherchedecomposantesprimairespourunestructurationaudiovisuelle |
_version_ |
1716455644561670144 |