Parole de locuteur : performance et confiance en identification biométrique vocale

Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonct...

Full description

Bibliographic Details
Main Author:	Kahn, Juliette
Language:	fra
Published:	Université d'Avignon 2011
Subjects:	[INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image Locuteur Parole Biométrie Évaluation
Online Access:	http://tel.archives-ouvertes.fr/tel-00995071 http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00995071
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-009950712014-09-11T03:26:40Z http://tel.archives-ouvertes.fr/tel-00995071 2011AVIG0187 http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf Parole de locuteur : performance et confiance en identification biométrique vocale Kahn, Juliette [INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image Locuteur Parole Biométrie Évaluation Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues 2011-12-19 fra PhD thesis Université d'Avignon
collection	NDLTD
language	fra
sources	NDLTD
topic	[INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image Locuteur Parole Biométrie Évaluation
spellingShingle	[INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image Locuteur Parole Biométrie Évaluation Kahn, Juliette Parole de locuteur : performance et confiance en identification biométrique vocale
description	Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues
author	Kahn, Juliette
author_facet	Kahn, Juliette
author_sort	Kahn, Juliette
title	Parole de locuteur : performance et confiance en identification biométrique vocale
title_short	Parole de locuteur : performance et confiance en identification biométrique vocale
title_full	Parole de locuteur : performance et confiance en identification biométrique vocale
title_fullStr	Parole de locuteur : performance et confiance en identification biométrique vocale
title_full_unstemmed	Parole de locuteur : performance et confiance en identification biométrique vocale
title_sort	parole de locuteur : performance et confiance en identification biométrique vocale
publisher	Université d'Avignon
publishDate	2011
url	http://tel.archives-ouvertes.fr/tel-00995071 http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf
work_keys_str_mv	AT kahnjuliette paroledelocuteurperformanceetconfianceenidentificationbiometriquevocale
_version_	1716713741704232960

Parole de locuteur : performance et confiance en identification biométrique vocale

Similar Items