Parole de locuteur : performance et confiance en identification biométrique vocale

Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonct...

Full description

Bibliographic Details
Main Author: Kahn, Juliette
Language:fra
Published: Université d'Avignon 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00995071
http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00995071
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-009950712014-09-11T03:26:40Z http://tel.archives-ouvertes.fr/tel-00995071 2011AVIG0187 http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf Parole de locuteur : performance et confiance en identification biométrique vocale Kahn, Juliette [INFO:INFO_TS] Computer Science/Signal and Image Processing [INFO:INFO_TS] Informatique/Traitement du signal et de l'image [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image Locuteur Parole Biométrie Évaluation Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues 2011-12-19 fra PhD thesis Université d'Avignon
collection NDLTD
language fra
sources NDLTD
topic [INFO:INFO_TS] Computer Science/Signal and Image Processing
[INFO:INFO_TS] Informatique/Traitement du signal et de l'image
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image
Locuteur
Parole
Biométrie
Évaluation
spellingShingle [INFO:INFO_TS] Computer Science/Signal and Image Processing
[INFO:INFO_TS] Informatique/Traitement du signal et de l'image
[SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[SPI:SIGNAL] Sciences de l'ingénieur/Traitement du signal et de l'image
Locuteur
Parole
Biométrie
Évaluation
Kahn, Juliette
Parole de locuteur : performance et confiance en identification biométrique vocale
description Ce travail de thèse explore l'usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d'autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :- Tous les extraits de parole d'un même locuteur sont-ils équivalents pour le reconnaître ?- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ? Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d'un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu'ils soient naïfs ou plus expérimentés.Dans ce cadre, nous montrons que ni la (quasi)unanimité des auditeurs ni l'auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.Nous quantifions, dans un second temps, l'influence du choix d'un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bienfondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l'aide d'un taux de variation autour de l'EER moyen, Vr (pour NIST, VrIdento = 1.41 et VrALIZE/SpkDet = 1.47 et pour BREF, Vr = 3.11) selon le choix du fichier d'apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu'il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.Afin d'expliquer l'importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l'effet du facteur Locuteur sur la variance des indices (h2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur : les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.Ce travail constitue un premier pas vers une étude plus précise de ce qu'est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu'il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l'influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu'en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d'information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu'il en est pour d'autres langues
author Kahn, Juliette
author_facet Kahn, Juliette
author_sort Kahn, Juliette
title Parole de locuteur : performance et confiance en identification biométrique vocale
title_short Parole de locuteur : performance et confiance en identification biométrique vocale
title_full Parole de locuteur : performance et confiance en identification biométrique vocale
title_fullStr Parole de locuteur : performance et confiance en identification biométrique vocale
title_full_unstemmed Parole de locuteur : performance et confiance en identification biométrique vocale
title_sort parole de locuteur : performance et confiance en identification biométrique vocale
publisher Université d'Avignon
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00995071
http://tel.archives-ouvertes.fr/docs/01/05/91/93/PDF/pdf2star-1385375855-these_JK11.pdf
work_keys_str_mv AT kahnjuliette paroledelocuteurperformanceetconfianceenidentificationbiometriquevocale
_version_ 1716713741704232960