Transformation automatique de la parole - Etude des transformations acoustiques

Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de...

Full description

Bibliographic Details
Main Author: Mesbahi, Larbi
Language:FRE
Published: Université Rennes 1 2010
Subjects:
GMM
RBF
Online Access:http://tel.archives-ouvertes.fr/tel-00547088
http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00547088
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005470882013-01-07T17:49:51Z http://tel.archives-ouvertes.fr/tel-00547088 http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf Transformation automatique de la parole - Etude des transformations acoustiques Mesbahi, Larbi [INFO:INFO_HC] Computer Science/Human-Computer Interaction Conversion de voix Apprentissage Alignement Classification segmental GMM RBF Quantification vectorielle True-envelope Classes phonétiques Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique. 2010-10-28 FRE PhD thesis Université Rennes 1
collection NDLTD
language FRE
sources NDLTD
topic [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Conversion de voix
Apprentissage
Alignement
Classification
segmental
GMM
RBF
Quantification vectorielle
True-envelope
Classes phonétiques
spellingShingle [INFO:INFO_HC] Computer Science/Human-Computer Interaction
Conversion de voix
Apprentissage
Alignement
Classification
segmental
GMM
RBF
Quantification vectorielle
True-envelope
Classes phonétiques
Mesbahi, Larbi
Transformation automatique de la parole - Etude des transformations acoustiques
description Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.
author Mesbahi, Larbi
author_facet Mesbahi, Larbi
author_sort Mesbahi, Larbi
title Transformation automatique de la parole - Etude des transformations acoustiques
title_short Transformation automatique de la parole - Etude des transformations acoustiques
title_full Transformation automatique de la parole - Etude des transformations acoustiques
title_fullStr Transformation automatique de la parole - Etude des transformations acoustiques
title_full_unstemmed Transformation automatique de la parole - Etude des transformations acoustiques
title_sort transformation automatique de la parole - etude des transformations acoustiques
publisher Université Rennes 1
publishDate 2010
url http://tel.archives-ouvertes.fr/tel-00547088
http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf
work_keys_str_mv AT mesbahilarbi transformationautomatiquedelaparoleetudedestransformationsacoustiques
_version_ 1716397046570680320