Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems

Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les mo...

Full description

Bibliographic Details
Main Author: Tomashenko, Natalia
Other Authors: Le Mans
Language:en
Published: 2017
Subjects:
Online Access:http://www.theses.fr/2017LEMA1040/document
id ndltd-theses.fr-2017LEMA1040
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic Adaptation au locuteur
Apprentissage adaptatif au locuteur (SAT)
Réseaux de neurones profonds
Modèles de mélanges Gaussiens (GMM)
Paramètres acoustiques dérivés de GMM (GMMD)
Reconnaissance automatique de la parole (RAP)
Modèles acoustiques
Apprentissage profond
Speaker adaptation
Speaker adaptive training
Deep neural network (DNN)
Gaussian mixture model (GMM)
GMM-derived (GMMD) features
Automatic speech recognition (ASR)
Acoustic models
Deep learning
006.454
spellingShingle Adaptation au locuteur
Apprentissage adaptatif au locuteur (SAT)
Réseaux de neurones profonds
Modèles de mélanges Gaussiens (GMM)
Paramètres acoustiques dérivés de GMM (GMMD)
Reconnaissance automatique de la parole (RAP)
Modèles acoustiques
Apprentissage profond
Speaker adaptation
Speaker adaptive training
Deep neural network (DNN)
Gaussian mixture model (GMM)
GMM-derived (GMMD) features
Automatic speech recognition (ASR)
Acoustic models
Deep learning
006.454
Tomashenko, Natalia
Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
description Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. === Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them.
author2 Le Mans
author_facet Le Mans
Tomashenko, Natalia
author Tomashenko, Natalia
author_sort Tomashenko, Natalia
title Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
title_short Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
title_full Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
title_fullStr Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
title_full_unstemmed Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems
title_sort speaker adaptation of deep neural network acoustic models using gaussian mixture model framework in automatic speech recognition systems
publishDate 2017
url http://www.theses.fr/2017LEMA1040/document
work_keys_str_mv AT tomashenkonatalia speakeradaptationofdeepneuralnetworkacousticmodelsusinggaussianmixturemodelframeworkinautomaticspeechrecognitionsystems
AT tomashenkonatalia utilisationdemodelesgaussienspourladaptationaulocuteurdereseauxdeneuronesprofondsdansuncontextedemodelisationacoustiquepourlareconnaissancedelaparole
_version_ 1718975310489190400
spelling ndltd-theses.fr-2017LEMA10402019-02-10T04:39:59Z Speaker adaptation of deep neural network acoustic models using Gaussian mixture model framework in automatic speech recognition systems Utilisation de modèles gaussiens pour l'adaptation au locuteur de réseaux de neurones profonds dans un contexte de modélisation acoustique pour la reconnaissance de la parole Adaptation au locuteur Apprentissage adaptatif au locuteur (SAT) Réseaux de neurones profonds Modèles de mélanges Gaussiens (GMM) Paramètres acoustiques dérivés de GMM (GMMD) Reconnaissance automatique de la parole (RAP) Modèles acoustiques Apprentissage profond Speaker adaptation Speaker adaptive training Deep neural network (DNN) Gaussian mixture model (GMM) GMM-derived (GMMD) features Automatic speech recognition (ASR) Acoustic models Deep learning 006.454 Les différences entre conditions d'apprentissage et conditions de test peuvent considérablement dégrader la qualité des transcriptions produites par un système de reconnaissance automatique de la parole (RAP). L'adaptation est un moyen efficace pour réduire l'inadéquation entre les modèles du système et les données liées à un locuteur ou un canal acoustique particulier. Il existe deux types dominants de modèles acoustiques utilisés en RAP : les modèles de mélanges gaussiens (GMM) et les réseaux de neurones profonds (DNN). L'approche par modèles de Markov cachés (HMM) combinés à des GMM (GMM-HMM) a été l'une des techniques les plus utilisées dans les systèmes de RAP pendant de nombreuses décennies. Plusieurs techniques d'adaptation ont été développées pour ce type de modèles. Les modèles acoustiques combinant HMM et DNN (DNN-HMM) ont récemment permis de grandes avancées et surpassé les modèles GMM-HMM pour diverses tâches de RAP, mais l'adaptation au locuteur reste très difficile pour les modèles DNN-HMM. L'objectif principal de cette thèse est de développer une méthode de transfert efficace des algorithmes d'adaptation des modèles GMM aux modèles DNN. Une nouvelle approche pour l'adaptation au locuteur des modèles acoustiques de type DNN est proposée et étudiée : elle s'appuie sur l'utilisation de fonctions dérivées de GMM comme entrée d'un DNN. La technique proposée fournit un cadre général pour le transfert des algorithmes d'adaptation développés pour les GMM à l'adaptation des DNN. Elle est étudiée pour différents systèmes de RAP à l'état de l'art et s'avère efficace par rapport à d'autres techniques d'adaptation au locuteur, ainsi que complémentaire. Differences between training and testing conditions may significantly degrade recognition accuracy in automatic speech recognition (ASR) systems. Adaptation is an efficient way to reduce the mismatch between models and data from a particular speaker or channel. There are two dominant types of acoustic models (AMs) used in ASR: Gaussian mixture models (GMMs) and deep neural networks (DNNs). The GMM hidden Markov model (GMM-HMM) approach has been one of the most common technique in ASR systems for many decades. Speaker adaptation is very effective for these AMs and various adaptation techniques have been developed for them. On the other hand, DNN-HMM AMs have recently achieved big advances and outperformed GMM-HMM models for various ASR tasks. However, speaker adaptation is still very challenging for these AMs. Many adaptation algorithms that work well for GMMs systems cannot be easily applied to DNNs because of the different nature of these models. The main purpose of this thesis is to develop a method for efficient transfer of adaptation algorithms from the GMM framework to DNN models. A novel approach for speaker adaptation of DNN AMs is proposed and investigated. The idea of this approach is based on using so-called GMM-derived features as input to a DNN. The proposed technique provides a general framework for transferring adaptation algorithms, developed for GMMs, to DNN adaptation. It is explored for various state-of-the-art ASR systems and is shown to be effective in comparison with other speaker adaptation techniques and complementary to them. Electronic Thesis or Dissertation Text en http://www.theses.fr/2017LEMA1040/document Tomashenko, Natalia 2017-12-01 Le Mans ITMO University Estève, Yannick Matveev, Yuri Larcher, Anthony