Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques

Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par...

Full description

Bibliographic Details
Main Author: Buniet, Laurent
Language:FRE
Published: Université Henri Poincaré - Nancy I 1997
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00629285
http://tel.archives-ouvertes.fr/docs/00/62/92/85/PDF/INRIA_TU-1118_PDF-A-1b-2005-CMYK_.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00629285
record_format oai_dc
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_HC] Computer Science/Human-Computer Interaction
reconnaissance automatique de la parole (RAP)
mots isolés
mots enchaînés et parole continue
environnements bruités
réseaux de neurones artificiels
dynamique
temps et mémoire dans les réseaux de neurones artificiels récurrents
spellingShingle [INFO:INFO_HC] Computer Science/Human-Computer Interaction
reconnaissance automatique de la parole (RAP)
mots isolés
mots enchaînés et parole continue
environnements bruités
réseaux de neurones artificiels
dynamique
temps et mémoire dans les réseaux de neurones artificiels récurrents
Buniet, Laurent
Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
description Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par l'Homme ne suffit pas en elle-même pour élaborer effectivement les dites applications. Les conditions de laboratoire qui ont prévalues lors de l'enregistrement des premiers corpus de parole utilisés à des fins de recherches sont en effet très différentes des conditions réelles que l'on rencontre généralement dans les lieux de travail ou de vie. Ayant le plus souvent été enregistrés en chambre anéchoïde, ces corpus ne permettaient pas plus d'appréhender les dégradations que le milieu peut engendrer sur le signal de parole que de constater quelles pouvaient être les modifications provoquées sur ce signal par un locuteur essayant de s'adapter à son milieu. Certaines des recherches actuelles en RAP essaient donc d'améliorer les capacités de résistance au bruit des systèmes existants. Pour ce faire, il est possible d'utiliser un système d'abord défini pour la reconnaissance de la parole non bruitée en lui ajoutant un mécanisme lui permettant de s'adapter à certaines conditions de bruit. Il est également possible de définir un système ab-nihilo qui soit tout aussi bien adapté aux conditions non bruitées qu'aux conditions bruitées. Le sujet de cette thèse porte sur la reconnaissance de petits vocabulaires, tels que les lettres ou les chiffres, prononcés de manière continue en milieu bruité. Pour mener à bien cette étude, différentes architectures connexionnistes ont été étudiées. L'utilisation de modèles connexionnistes nous a permis de mettre au point, grâce au mécanisme d'apprentissage, des systèmes qui sont immédiatement adaptés à différentes conditions de bruit. Un premier système a été mis en place qui permet, en trois étapes, de reconnaître les mots du vocabulaire étudié. Une première étape identifie des points d'ancrage dans le signal, ces points d'ancrage correspondant à une segmentation des parties vocaliques du signal. Une deuxième étape permet de reconnaître les voyelles contenues dans les segments retenus alors qu'une troisième étape permet de distinguer les différents mots du vocabulaire qui possèdent les mêmes voyelles. Cette architecture, basée sur des perceptrons multicouches, a prouvé être de bonne qualité mais l'étape de segmentation s'est révélée être de moindre qualité à des rapports signal sur bruit faible c'est à dire de l'ordre de 6 décibels ou moins. Ceci nous a poussé à étudier des modèles connexionnistes dynamiques, à l'opposé des perceptrons multicouches qui sont des modèles statiques. Les modèles dynamiques ont la particularité de mettre en place des mécanismes de récurrence qui permettent de mieux appréhender les phénomènes temporels tel que peut l'être un problème de segmentation de la parole. Le modèle gamma, un modèle connexionniste à récurrence locale, a ainsi été choisi tout autant pour ses capacités à modéliser les évènements temporels que pour la facilité avec laquelle il peut être analysé. Il a été appliqué à des problèmes de reconnaissance de séquences, ce qui a permis d'explorer ses capacités, ainsi qu'à des tâches de segmentation, pour tenter de résoudre les problèmes posés par les perceptrons multicouches lors de l'utilisation de notre premier système.
author Buniet, Laurent
author_facet Buniet, Laurent
author_sort Buniet, Laurent
title Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
title_short Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
title_full Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
title_fullStr Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
title_full_unstemmed Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
title_sort traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques
publisher Université Henri Poincaré - Nancy I
publishDate 1997
url http://tel.archives-ouvertes.fr/tel-00629285
http://tel.archives-ouvertes.fr/docs/00/62/92/85/PDF/INRIA_TU-1118_PDF-A-1b-2005-CMYK_.pdf
work_keys_str_mv AT bunietlaurent traitementautomatiquedelaparoleenmilieubruiteetudedemodelesconnexionnistesstatiquesetdynamiques
_version_ 1716396351375278080
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-006292852013-01-07T17:31:33Z http://tel.archives-ouvertes.fr/tel-00629285 http://tel.archives-ouvertes.fr/docs/00/62/92/85/PDF/INRIA_TU-1118_PDF-A-1b-2005-CMYK_.pdf Traitement automatique de la parole en milieu bruité : étude de modèles connexionnistes statiques et dynamiques Buniet, Laurent [INFO:INFO_HC] Computer Science/Human-Computer Interaction reconnaissance automatique de la parole (RAP) mots isolés mots enchaînés et parole continue environnements bruités réseaux de neurones artificiels dynamique temps et mémoire dans les réseaux de neurones artificiels récurrents Les recherches effectuées dans le domaine de la reconnaissance automatique de la parole (RAP) permettent d'envisager un éventail toujours plus large d'applications industrielles ou grand public. Cependant, la compréhension des mécanismes de production et de reconnaissance de la parole par l'Homme ne suffit pas en elle-même pour élaborer effectivement les dites applications. Les conditions de laboratoire qui ont prévalues lors de l'enregistrement des premiers corpus de parole utilisés à des fins de recherches sont en effet très différentes des conditions réelles que l'on rencontre généralement dans les lieux de travail ou de vie. Ayant le plus souvent été enregistrés en chambre anéchoïde, ces corpus ne permettaient pas plus d'appréhender les dégradations que le milieu peut engendrer sur le signal de parole que de constater quelles pouvaient être les modifications provoquées sur ce signal par un locuteur essayant de s'adapter à son milieu. Certaines des recherches actuelles en RAP essaient donc d'améliorer les capacités de résistance au bruit des systèmes existants. Pour ce faire, il est possible d'utiliser un système d'abord défini pour la reconnaissance de la parole non bruitée en lui ajoutant un mécanisme lui permettant de s'adapter à certaines conditions de bruit. Il est également possible de définir un système ab-nihilo qui soit tout aussi bien adapté aux conditions non bruitées qu'aux conditions bruitées. Le sujet de cette thèse porte sur la reconnaissance de petits vocabulaires, tels que les lettres ou les chiffres, prononcés de manière continue en milieu bruité. Pour mener à bien cette étude, différentes architectures connexionnistes ont été étudiées. L'utilisation de modèles connexionnistes nous a permis de mettre au point, grâce au mécanisme d'apprentissage, des systèmes qui sont immédiatement adaptés à différentes conditions de bruit. Un premier système a été mis en place qui permet, en trois étapes, de reconnaître les mots du vocabulaire étudié. Une première étape identifie des points d'ancrage dans le signal, ces points d'ancrage correspondant à une segmentation des parties vocaliques du signal. Une deuxième étape permet de reconnaître les voyelles contenues dans les segments retenus alors qu'une troisième étape permet de distinguer les différents mots du vocabulaire qui possèdent les mêmes voyelles. Cette architecture, basée sur des perceptrons multicouches, a prouvé être de bonne qualité mais l'étape de segmentation s'est révélée être de moindre qualité à des rapports signal sur bruit faible c'est à dire de l'ordre de 6 décibels ou moins. Ceci nous a poussé à étudier des modèles connexionnistes dynamiques, à l'opposé des perceptrons multicouches qui sont des modèles statiques. Les modèles dynamiques ont la particularité de mettre en place des mécanismes de récurrence qui permettent de mieux appréhender les phénomènes temporels tel que peut l'être un problème de segmentation de la parole. Le modèle gamma, un modèle connexionniste à récurrence locale, a ainsi été choisi tout autant pour ses capacités à modéliser les évènements temporels que pour la facilité avec laquelle il peut être analysé. Il a été appliqué à des problèmes de reconnaissance de séquences, ce qui a permis d'explorer ses capacités, ainsi qu'à des tâches de segmentation, pour tenter de résoudre les problèmes posés par les perceptrons multicouches lors de l'utilisation de notre premier système. 1997-02-10 FRE PhD thesis Université Henri Poincaré - Nancy I