Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées

La reconnaissance de l'état émotionnel d'un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et natu...

Full description

Bibliographic Details
Main Author: Ringeval, Fabien
Language:FRE
Published: Université Pierre et Marie Curie - Paris VI 2011
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00825312
http://tel.archives-ouvertes.fr/docs/00/82/53/12/PDF/ThA_se.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00825312
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-008253122013-05-25T03:02:28Z http://tel.archives-ouvertes.fr/tel-00825312 2011PA066048 http://tel.archives-ouvertes.fr/docs/00/82/53/12/PDF/ThA_se.pdf Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées Ringeval, Fabien [SPI:SIGNAL] Engineering Sciences/Signal and Image processing [INFO:INFO_TS] Computer Science/Signal and Image Processing Troubles de la communication Prosodie (linguistique) Traitement automatique de la parole La reconnaissance de l'état émotionnel d'un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et naturelles. L'étude des émotions spontanées a été effectuée en parallèle avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacités d'interaction de l'enfant. Les techniques incluses dans les systèmes de TAP orienté émotion doivent reposer sur des paramètres robustes dans la description des corrélats de l'affect, mais aussi face aux contraintes liées au changement de locuteur et de contexte sémantique. Dans cet esprit, nos travaux ont exploité un ensemble de traitements automatiques pour effectuer la reconnaissance des émotions. Nous avons notamment identifié des points d'ancrage complémentaires de la parole (e.g., pseudo-phonèmes) pour extraire plusieurs types de paramètres (e.g., acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi été employées pour estimer la con-tribution de ces approches dans la tâche de reconnaissance. De plus, un effort a été tout spécia-lement porté sur le développement de modèles non-convent-ionnels du rythme, puisque cette composante apparaît clairement comme étant sous modélisée dans les systèmes état-de-l'art. Les expériences effectuées dans cette thèse visent à démontrer la pertinence des points d'ancrage de la parole et des modèles du rythme pour identifier les paramètres corrélés aux émotions. L'étude des émotions prototypiques (i.e., actées) par les modèles non-conventionnels du rythme a, par exemple, permis de définir un continuum de valeurs représentant alors les classes d'émotions qui apparaissent selon la roue de Plutchik. Les analyses portant sur les TC ont été effectuées en étroite collaboration avec des équipes de cliniciens et de chercheurs en TAP orienté émotion. Ces travaux ont eu pour but d'employer des méthodes automatiques (i.e., identification des points d'ancrage de la parole et extraction de paramètres prosodiques) pour caractériser les particularités associées aux types de TC étu-diés, i.e., autisme, dysphasie et troubles envahissants du développement non-spécifiés (TED-NOS). Un groupe contrôle composé d'enfants à développement typique a aussi été étudié pour comparer les capacités prosodiques des sujets TC. Les résultats de cette étude sont prometteurs puisqu'ils ont montré que l'ensemble des sujets pathologiques pouvait être discriminé significa-tivement des typiques, tout comme les différents groupes de TC, selon deux types d'épreuves distinctes : (i) imitation de contours intonatifs (tâche contrainte) et (ii) production de parole affective spontanée (tâche non-contrainte). De plus, les résultats fournis par une analyse auto-matique des données ont permis de retrouver les caractéristiques cliniques des groupes de TC. Les techniques actuelles en TAP orienté émotion sont donc suffisamment matures pour s'affranchir des difficultés créées par l'étude de corpus contenant de la parole spontanée et/ou produite par des voix d'enfants. Par conséquent, la difficile mais au combien importante tâche " d'humanisation " des systèmes communicants peut être envisagée, puisque les machines peuvent avoir la capacité de percevoir de façon robuste l'affect dans des situations naturelles 2011-01-04 FRE PhD thesis Université Pierre et Marie Curie - Paris VI
collection NDLTD
language FRE
sources NDLTD
topic [SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[INFO:INFO_TS] Computer Science/Signal and Image Processing
Troubles de la communication
Prosodie (linguistique)
Traitement automatique de la parole
spellingShingle [SPI:SIGNAL] Engineering Sciences/Signal and Image processing
[INFO:INFO_TS] Computer Science/Signal and Image Processing
Troubles de la communication
Prosodie (linguistique)
Traitement automatique de la parole
Ringeval, Fabien
Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
description La reconnaissance de l'état émotionnel d'un locuteur est une étape importante pour rendre la communication Homme-machine plus naturelle et conviviale. Nous étudions dans cette thèse la problématique du traitement automatique de la parole (TAP) orienté émotion sur des données actées et naturelles. L'étude des émotions spontanées a été effectuée en parallèle avec celles des troubles de la communication (TC), puisque ces troubles limitent les capacités d'interaction de l'enfant. Les techniques incluses dans les systèmes de TAP orienté émotion doivent reposer sur des paramètres robustes dans la description des corrélats de l'affect, mais aussi face aux contraintes liées au changement de locuteur et de contexte sémantique. Dans cet esprit, nos travaux ont exploité un ensemble de traitements automatiques pour effectuer la reconnaissance des émotions. Nous avons notamment identifié des points d'ancrage complémentaires de la parole (e.g., pseudo-phonèmes) pour extraire plusieurs types de paramètres (e.g., acoustique et prosodique) sur le signal. Des techniques de fusion ont aussi été employées pour estimer la con-tribution de ces approches dans la tâche de reconnaissance. De plus, un effort a été tout spécia-lement porté sur le développement de modèles non-convent-ionnels du rythme, puisque cette composante apparaît clairement comme étant sous modélisée dans les systèmes état-de-l'art. Les expériences effectuées dans cette thèse visent à démontrer la pertinence des points d'ancrage de la parole et des modèles du rythme pour identifier les paramètres corrélés aux émotions. L'étude des émotions prototypiques (i.e., actées) par les modèles non-conventionnels du rythme a, par exemple, permis de définir un continuum de valeurs représentant alors les classes d'émotions qui apparaissent selon la roue de Plutchik. Les analyses portant sur les TC ont été effectuées en étroite collaboration avec des équipes de cliniciens et de chercheurs en TAP orienté émotion. Ces travaux ont eu pour but d'employer des méthodes automatiques (i.e., identification des points d'ancrage de la parole et extraction de paramètres prosodiques) pour caractériser les particularités associées aux types de TC étu-diés, i.e., autisme, dysphasie et troubles envahissants du développement non-spécifiés (TED-NOS). Un groupe contrôle composé d'enfants à développement typique a aussi été étudié pour comparer les capacités prosodiques des sujets TC. Les résultats de cette étude sont prometteurs puisqu'ils ont montré que l'ensemble des sujets pathologiques pouvait être discriminé significa-tivement des typiques, tout comme les différents groupes de TC, selon deux types d'épreuves distinctes : (i) imitation de contours intonatifs (tâche contrainte) et (ii) production de parole affective spontanée (tâche non-contrainte). De plus, les résultats fournis par une analyse auto-matique des données ont permis de retrouver les caractéristiques cliniques des groupes de TC. Les techniques actuelles en TAP orienté émotion sont donc suffisamment matures pour s'affranchir des difficultés créées par l'étude de corpus contenant de la parole spontanée et/ou produite par des voix d'enfants. Par conséquent, la difficile mais au combien importante tâche " d'humanisation " des systèmes communicants peut être envisagée, puisque les machines peuvent avoir la capacité de percevoir de façon robuste l'affect dans des situations naturelles
author Ringeval, Fabien
author_facet Ringeval, Fabien
author_sort Ringeval, Fabien
title Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
title_short Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
title_full Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
title_fullStr Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
title_full_unstemmed Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
title_sort ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées
publisher Université Pierre et Marie Curie - Paris VI
publishDate 2011
url http://tel.archives-ouvertes.fr/tel-00825312
http://tel.archives-ouvertes.fr/docs/00/82/53/12/PDF/ThA_se.pdf
work_keys_str_mv AT ringevalfabien ancragesetmodelesdynamiquesdelaprosodieapplicationalareconnaissancedesemotionsacteesetspontanees
_version_ 1716585887282757632