Transformation automatique de la parole - Etude des transformations acoustiques

Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de...

Full description

Bibliographic Details
Main Author:	Mesbahi, Larbi
Language:	FRE
Published:	Université Rennes 1 2010
Subjects:	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Conversion de voix Apprentissage Alignement Classification segmental GMM RBF Quantification vectorielle True-envelope Classes phonétiques
Online Access:	http://tel.archives-ouvertes.fr/tel-00547088 http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf

id	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00547088
record_format	oai_dc
spelling	ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-005470882013-01-07T17:49:51Z http://tel.archives-ouvertes.fr/tel-00547088 http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf Transformation automatique de la parole - Etude des transformations acoustiques Mesbahi, Larbi [INFO:INFO_HC] Computer Science/Human-Computer Interaction Conversion de voix Apprentissage Alignement Classification segmental GMM RBF Quantification vectorielle True-envelope Classes phonétiques Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique. 2010-10-28 FRE PhD thesis Université Rennes 1
collection	NDLTD
language	FRE
sources	NDLTD
topic	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Conversion de voix Apprentissage Alignement Classification segmental GMM RBF Quantification vectorielle True-envelope Classes phonétiques
spellingShingle	[INFO:INFO_HC] Computer Science/Human-Computer Interaction Conversion de voix Apprentissage Alignement Classification segmental GMM RBF Quantification vectorielle True-envelope Classes phonétiques Mesbahi, Larbi Transformation automatique de la parole - Etude des transformations acoustiques
description	Le travail effectué dans cette thèse s'insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d'un énoncé pour qu'il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l'état de l'art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d'obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l'apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d'apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s'intéresse d'autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d'utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n'ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s'appuyant sur l'appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire que cette paramètrisation conserve un maximum d'information sur le locuteur. Il s'agit en l'occurrence de l'enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d'analyse par composantes principales (PCA, Principal componant analysis). Cette solution s'avère plus efficace lorsqu'on différencie les fonctions de transformation selon la classe phonétique.
author	Mesbahi, Larbi
author_facet	Mesbahi, Larbi
author_sort	Mesbahi, Larbi
title	Transformation automatique de la parole - Etude des transformations acoustiques
title_short	Transformation automatique de la parole - Etude des transformations acoustiques
title_full	Transformation automatique de la parole - Etude des transformations acoustiques
title_fullStr	Transformation automatique de la parole - Etude des transformations acoustiques
title_full_unstemmed	Transformation automatique de la parole - Etude des transformations acoustiques
title_sort	transformation automatique de la parole - etude des transformations acoustiques
publisher	Université Rennes 1
publishDate	2010
url	http://tel.archives-ouvertes.fr/tel-00547088 http://tel.archives-ouvertes.fr/docs/00/54/70/88/PDF/these.pdf
work_keys_str_mv	AT mesbahilarbi transformationautomatiquedelaparoleetudedestransformationsacoustiques
_version_	1716397046570680320

Transformation automatique de la parole - Etude des transformations acoustiques

Similar Items