Indexation audio-visuelle des personnes dans un contexte de télévision

Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les so...

Full description

Bibliographic Details
Main Author:	Bendris, Meriem
Language:	FRE
Published:	Télécom ParisTech 2011
Subjects:	[INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing Indexation de visages parlants Indexation en locuteur Détection et identification visuelle des personnes Fusion audio-visuelle pour l'indexation
Online Access:	http://pastel.archives-ouvertes.fr/pastel-00661662 http://pastel.archives-ouvertes.fr/docs/00/66/16/62/PDF/RapportTheseBendris.pdf

id	ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-00661662
record_format	oai_dc
spelling	ndltd-CCSD-oai-pastel.archives-ouvertes.fr-pastel-006616622013-01-07T17:05:27Z http://pastel.archives-ouvertes.fr/pastel-00661662 http://pastel.archives-ouvertes.fr/docs/00/66/16/62/PDF/RapportTheseBendris.pdf Indexation audio-visuelle des personnes dans un contexte de télévision Bendris, Meriem [INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing Indexation de visages parlants Indexation en locuteur Détection et identification visuelle des personnes Fusion audio-visuelle pour l'indexation Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressé aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité. 2011-07-07 FRE PhD thesis Télécom ParisTech
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing Indexation de visages parlants Indexation en locuteur Détection et identification visuelle des personnes Fusion audio-visuelle pour l'indexation
spellingShingle	[INFO:INFO_TS] Computer Science/Signal and Image Processing [SPI:SIGNAL] Engineering Sciences/Signal and Image processing Indexation de visages parlants Indexation en locuteur Détection et identification visuelle des personnes Fusion audio-visuelle pour l'indexation Bendris, Meriem Indexation audio-visuelle des personnes dans un contexte de télévision
description	Le développement et l'amélioration du réseau Internet a permis de mettre un grand nombre de contenus télévisuels à disposition des utilisateurs. Afin de faciliter la navigation parmi ces vidéos, il est intéressant de développer des technologies pour indexer les personnes automatiquement. Les solutions actuelles proposent de construire l'index audio-visuel des personnes par combinaison des index audio et visuel obtenus de manière indépendante. Malheureusement, pour les émissions de télévision, il est difficile de détecter et de regrouper les personnes automatiquement à cause des nombreuses ambiguïtés dans l'audio, le visuel et leur association (interactivité des dialogues, variations de pose du visage, asynchronie entre la parole et l'apparence, etc). Les approches basées sur la fusion des index audio et visuel combinent les erreurs d'indexation issues de chaque modalité. Les travaux présentés dans ce rapport exploitent la complémentarité entre les informations audio et visuelle afin de palier aux faiblesses de chaque modalité. Ainsi, une modalité peut appuyer l'indexation d'une personne lorsque l'autre est jugée peu fiable. Nous proposons une procédure de correction mutuelle des erreurs d'indexation de chaque modalité. D'abord, les erreurs sont détectées automatiquement à l'aide d'indicateurs de présence de visage parlant. Puis, la modalité qui a échoué est corrigée grâce à un schéma automatique. Nous avons proposé en premier lieu un système initial d'indexation de visages parlants basé sur la détection et le regroupement du locuteur et du costume. Nous proposons une méthode de combinaison d'index basée sur la maximisation de la couverture globale des groupes de personnes. Ce système, évalué sur des émissions de plateaux, obtient une grande précision (90%), mais un faible rappel (seulement 55% des visages parlants sont détectés). Afin de détecter automatiquement la présence d'un visage parlant dans le processus de correction mutuelle, nous avons développé une nouvelle méthode de détection de mouvement des lèvres basée sur la mesure du degré de désordre de la direction des pixels autour de la région des lèvres. L'évaluation, réalisée sur le corpus de d'émission de plateaux, montre une amélioration significative de la détection des visages parlants comparé à l'état de l'art dans ce contexte. En particulier, notre méthode s'avère être plus robuste à un mouvement global du visage. Enfin, nous avons proposé deux schémas de correction. Le premier est basé sur une modification systématique de la modalité considérée a priori la moins fiable. Le second compare des scores de vérification de l'identité non supervisée afin de déterminer quelle modalité a échoué et la corriger. Les modèles non supervisés des personnes sont appris à partir des ensembles homogènes de visages parlants obtenus automatiquement par le système initial. Les deux méthodes de correction conduisent à une amélioration significative des performances (+2 à 5% de la F-mesure). Nous nous sommes également intéressé aux systèmes biométriques audio-visuels et particulièrement sur les techniques de fusion tardives pour la vérification d'identité. Nous avons proposé une méthode de fusion dépendante de la qualité du signal dans chaque modalité.
author	Bendris, Meriem
author_facet	Bendris, Meriem
author_sort	Bendris, Meriem
title	Indexation audio-visuelle des personnes dans un contexte de télévision
title_short	Indexation audio-visuelle des personnes dans un contexte de télévision
title_full	Indexation audio-visuelle des personnes dans un contexte de télévision
title_fullStr	Indexation audio-visuelle des personnes dans un contexte de télévision
title_full_unstemmed	Indexation audio-visuelle des personnes dans un contexte de télévision
title_sort	indexation audio-visuelle des personnes dans un contexte de télévision
publisher	Télécom ParisTech
publishDate	2011
url	http://pastel.archives-ouvertes.fr/pastel-00661662 http://pastel.archives-ouvertes.fr/docs/00/66/16/62/PDF/RapportTheseBendris.pdf
work_keys_str_mv	AT bendrismeriem indexationaudiovisuelledespersonnesdansuncontextedetelevision
_version_	1716395288922423296

Indexation audio-visuelle des personnes dans un contexte de télévision

Similar Items