Forbedret naturlighet i HMM-drevet talesyntese

I denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyn...

Full description

Bibliographic Details
Main Author:	Mølmen, Lene
Format:	Others
Language:	Norwegian
Published:	Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon 2006
Subjects:	ntnudaim SIE7 kommunikasjonsteknologi Signalbehandling og kommunikasjon
Online Access:	http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262

id	ndltd-UPSALLA1-oai-DiVA.org-ntnu-10262
record_format	oai_dc
spelling	ndltd-UPSALLA1-oai-DiVA.org-ntnu-102622013-01-08T13:26:53ZForbedret naturlighet i HMM-drevet talesyntesenorImproving naturalness in HMM based speech synthesisMølmen, LeneNorges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjonInstitutt for elektronikk og telekommunikasjon2006ntnudaimSIE7 kommunikasjonsteknologiSignalbehandling og kommunikasjonI denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyntese hvor en kan syntetisere norsk tale fra trente HMMer. Det er gitt en teoretisk beskrivelse av et system for HMM-basert talesyntese (HTS-system). I treningsdelen blir spektrum og eksitasjonsparametere trukket ut fra taledatabasen og modellert av kontekstavhengige HMMer. I syntesedelen skjøtes kontekstavhengige HMMer sammen i henhold til den teksten som skal syntetiseres. Taleparametrene inneholdt i HMMmodellene brukes til å styre en signalkilde og et MLSA-filter som syntetiserer tale i henhold til parametersekvensen. Kvaliteten på den norske stemmen generert med basisversjonen av HTS-systemet, har en vokodet klang. En årsak til denne klangen kan være at det brukes en svært enkel signalkilde, som enten genererer stemt lyd eller ustemt lyd når talesignalet genereres. Stemmen i basisversjonen hadde og en unaturlig setningsmelodi som det var ønskelig å forbedre. Norsk er et tonespråk. Det vil si at tonen varieres slik at samme ord får ulik betydning alt ettersom hvilken ordtone (tonem) ordet uttales med. Et eksempel på ordpar med tonemkontraster er: bade - badet. Denne karakteristiske egenskapen er implementert i systemet i den hensikt å forbedre naturligheten i talen. To blandede eksitasjonsmodeller er blitt studert, Harmonic plus Noise Model (HNM) og STRAIGHT, i den hensikt å redusere den vokodete klangen på talen. STRAIGHT er modellen som er implementert i denne masteroppgaven. STRAIGHT ekstraherer kontinuerlige og jevne fundamentalfrekvenskurver fra taledatabasen. Systemet bruker en pitsj-adaptiv metode i spektralanalysen og oppnår et glattet spektrogram uten spor av signalperiodisitet. Disse metodene gjør at STRAIGHT kan resyntetisere svært naturlig og forstålig tale. To norske HTS-stemmer med forbedret naturlighet er blitt konfigurert i det generelle tekst-til-tale systemet Festival. Festival gjør det mulig å syntetisere en hvilken som helst norsk setning. Disse setningene er syntetisert med den gamle signalkilden, men det er blitt lagt til tonelag i begge stemmene, og den ene er trent med f0-kurver ekstrahert fra STRAIGHT. Arbeidet med å lage en HTS-stemme basert på taleparametere fra STRAIGHT-modellen, førte ikke frem da tiden ikke strakk til. Stemmen er blitt trent av HTS-systemet og det er blitt generert parametersekvenser STRAIGHT kan lese inn for syntese. Det som gjenstår er selve syntetiseringen. Evaluering av stemmene med hensyn på naturlighet, viser at HTS-stemmen trent med f0-kurver fra STRAIGHT og tonelag, er den stemmen som oppnådde størst naturlighet. HTS-systemet er et svært fleksibelt system som har lite fotavtrykk og er attraktiv i anvendelser av små enheter som har begrenset med lagringsplass og beregningskraft, som f.eks mobiltelefoner og PDAer. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262Local ntnudaim:1244application/pdfinfo:eu-repo/semantics/openAccess
collection	NDLTD
language	Norwegian
format	Others
sources	NDLTD
topic	ntnudaim SIE7 kommunikasjonsteknologi Signalbehandling og kommunikasjon
spellingShingle	ntnudaim SIE7 kommunikasjonsteknologi Signalbehandling og kommunikasjon Mølmen, Lene Forbedret naturlighet i HMM-drevet talesyntese
description	I denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyntese hvor en kan syntetisere norsk tale fra trente HMMer. Det er gitt en teoretisk beskrivelse av et system for HMM-basert talesyntese (HTS-system). I treningsdelen blir spektrum og eksitasjonsparametere trukket ut fra taledatabasen og modellert av kontekstavhengige HMMer. I syntesedelen skjøtes kontekstavhengige HMMer sammen i henhold til den teksten som skal syntetiseres. Taleparametrene inneholdt i HMMmodellene brukes til å styre en signalkilde og et MLSA-filter som syntetiserer tale i henhold til parametersekvensen. Kvaliteten på den norske stemmen generert med basisversjonen av HTS-systemet, har en vokodet klang. En årsak til denne klangen kan være at det brukes en svært enkel signalkilde, som enten genererer stemt lyd eller ustemt lyd når talesignalet genereres. Stemmen i basisversjonen hadde og en unaturlig setningsmelodi som det var ønskelig å forbedre. Norsk er et tonespråk. Det vil si at tonen varieres slik at samme ord får ulik betydning alt ettersom hvilken ordtone (tonem) ordet uttales med. Et eksempel på ordpar med tonemkontraster er: bade - badet. Denne karakteristiske egenskapen er implementert i systemet i den hensikt å forbedre naturligheten i talen. To blandede eksitasjonsmodeller er blitt studert, Harmonic plus Noise Model (HNM) og STRAIGHT, i den hensikt å redusere den vokodete klangen på talen. STRAIGHT er modellen som er implementert i denne masteroppgaven. STRAIGHT ekstraherer kontinuerlige og jevne fundamentalfrekvenskurver fra taledatabasen. Systemet bruker en pitsj-adaptiv metode i spektralanalysen og oppnår et glattet spektrogram uten spor av signalperiodisitet. Disse metodene gjør at STRAIGHT kan resyntetisere svært naturlig og forstålig tale. To norske HTS-stemmer med forbedret naturlighet er blitt konfigurert i det generelle tekst-til-tale systemet Festival. Festival gjør det mulig å syntetisere en hvilken som helst norsk setning. Disse setningene er syntetisert med den gamle signalkilden, men det er blitt lagt til tonelag i begge stemmene, og den ene er trent med f0-kurver ekstrahert fra STRAIGHT. Arbeidet med å lage en HTS-stemme basert på taleparametere fra STRAIGHT-modellen, førte ikke frem da tiden ikke strakk til. Stemmen er blitt trent av HTS-systemet og det er blitt generert parametersekvenser STRAIGHT kan lese inn for syntese. Det som gjenstår er selve syntetiseringen. Evaluering av stemmene med hensyn på naturlighet, viser at HTS-stemmen trent med f0-kurver fra STRAIGHT og tonelag, er den stemmen som oppnådde størst naturlighet. HTS-systemet er et svært fleksibelt system som har lite fotavtrykk og er attraktiv i anvendelser av små enheter som har begrenset med lagringsplass og beregningskraft, som f.eks mobiltelefoner og PDAer.
author	Mølmen, Lene
author_facet	Mølmen, Lene
author_sort	Mølmen, Lene
title	Forbedret naturlighet i HMM-drevet talesyntese
title_short	Forbedret naturlighet i HMM-drevet talesyntese
title_full	Forbedret naturlighet i HMM-drevet talesyntese
title_fullStr	Forbedret naturlighet i HMM-drevet talesyntese
title_full_unstemmed	Forbedret naturlighet i HMM-drevet talesyntese
title_sort	forbedret naturlighet i hmm-drevet talesyntese
publisher	Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon
publishDate	2006
url	http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262
work_keys_str_mv	AT mølmenlene forbedretnaturlighetihmmdrevettalesyntese AT mølmenlene improvingnaturalnessinhmmbasedspeechsynthesis
_version_	1716520359845429248

Forbedret naturlighet i HMM-drevet talesyntese

Similar Items