Forbedret naturlighet i HMM-drevet talesyntese

I denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyn...

Full description

Bibliographic Details
Main Author: Mølmen, Lene
Format: Others
Language:Norwegian
Published: Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon 2006
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262
id ndltd-UPSALLA1-oai-DiVA.org-ntnu-10262
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-ntnu-102622013-01-08T13:26:53ZForbedret naturlighet i HMM-drevet talesyntesenorImproving naturalness in HMM based speech synthesisMølmen, LeneNorges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjonInstitutt for elektronikk og telekommunikasjon2006ntnudaimSIE7 kommunikasjonsteknologiSignalbehandling og kommunikasjonI denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyntese hvor en kan syntetisere norsk tale fra trente HMMer. Det er gitt en teoretisk beskrivelse av et system for HMM-basert talesyntese (HTS-system). I treningsdelen blir spektrum og eksitasjonsparametere trukket ut fra taledatabasen og modellert av kontekstavhengige HMMer. I syntesedelen skjøtes kontekstavhengige HMMer sammen i henhold til den teksten som skal syntetiseres. Taleparametrene inneholdt i HMMmodellene brukes til å styre en signalkilde og et MLSA-filter som syntetiserer tale i henhold til parametersekvensen. Kvaliteten på den norske stemmen generert med basisversjonen av HTS-systemet, har en ”vokodet” klang. En årsak til denne klangen kan være at det brukes en svært enkel signalkilde, som enten genererer stemt lyd eller ustemt lyd når talesignalet genereres. Stemmen i basisversjonen hadde og en unaturlig setningsmelodi som det var ønskelig å forbedre. Norsk er et tonespråk. Det vil si at tonen varieres slik at samme ord får ulik betydning alt ettersom hvilken ordtone (tonem) ordet uttales med. Et eksempel på ordpar med tonemkontraster er: bade - badet. Denne karakteristiske egenskapen er implementert i systemet i den hensikt å forbedre naturligheten i talen. To blandede eksitasjonsmodeller er blitt studert, Harmonic plus Noise Model (HNM) og STRAIGHT, i den hensikt å redusere den ”vokodete” klangen på talen. STRAIGHT er modellen som er implementert i denne masteroppgaven. STRAIGHT ekstraherer kontinuerlige og jevne fundamentalfrekvenskurver fra taledatabasen. Systemet bruker en pitsj-adaptiv metode i spektralanalysen og oppnår et glattet spektrogram uten spor av signalperiodisitet. Disse metodene gjør at STRAIGHT kan resyntetisere svært naturlig og forstålig tale. To norske HTS-stemmer med forbedret naturlighet er blitt konfigurert i det generelle tekst-til-tale systemet Festival. Festival gjør det mulig å syntetisere en hvilken som helst norsk setning. Disse setningene er syntetisert med den gamle signalkilden, men det er blitt lagt til tonelag i begge stemmene, og den ene er trent med f0-kurver ekstrahert fra STRAIGHT. Arbeidet med å lage en HTS-stemme basert på taleparametere fra STRAIGHT-modellen, førte ikke frem da tiden ikke strakk til. Stemmen er blitt trent av HTS-systemet og det er blitt generert parametersekvenser STRAIGHT kan lese inn for syntese. Det som gjenstår er selve syntetiseringen. Evaluering av stemmene med hensyn på naturlighet, viser at HTS-stemmen trent med f0-kurver fra STRAIGHT og tonelag, er den stemmen som oppnådde størst naturlighet. HTS-systemet er et svært fleksibelt system som har lite ”fotavtrykk” og er attraktiv i anvendelser av små enheter som har begrenset med lagringsplass og beregningskraft, som f.eks mobiltelefoner og PDAer. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262Local ntnudaim:1244application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Norwegian
format Others
sources NDLTD
topic ntnudaim
SIE7 kommunikasjonsteknologi
Signalbehandling og kommunikasjon
spellingShingle ntnudaim
SIE7 kommunikasjonsteknologi
Signalbehandling og kommunikasjon
Mølmen, Lene
Forbedret naturlighet i HMM-drevet talesyntese
description I denne masteroppgaven har en sett på hvordan en kan forbedre naturligheten i en norsk stemme basert på skjulte Markovmodeller. HMMmodeller har en bra egenskap til å modellere godt de variasjoner som finnes i et talesignal. Det er blitt tatt utgangspunkt i en basisversjon av norsk HMM-basert talesyntese hvor en kan syntetisere norsk tale fra trente HMMer. Det er gitt en teoretisk beskrivelse av et system for HMM-basert talesyntese (HTS-system). I treningsdelen blir spektrum og eksitasjonsparametere trukket ut fra taledatabasen og modellert av kontekstavhengige HMMer. I syntesedelen skjøtes kontekstavhengige HMMer sammen i henhold til den teksten som skal syntetiseres. Taleparametrene inneholdt i HMMmodellene brukes til å styre en signalkilde og et MLSA-filter som syntetiserer tale i henhold til parametersekvensen. Kvaliteten på den norske stemmen generert med basisversjonen av HTS-systemet, har en ”vokodet” klang. En årsak til denne klangen kan være at det brukes en svært enkel signalkilde, som enten genererer stemt lyd eller ustemt lyd når talesignalet genereres. Stemmen i basisversjonen hadde og en unaturlig setningsmelodi som det var ønskelig å forbedre. Norsk er et tonespråk. Det vil si at tonen varieres slik at samme ord får ulik betydning alt ettersom hvilken ordtone (tonem) ordet uttales med. Et eksempel på ordpar med tonemkontraster er: bade - badet. Denne karakteristiske egenskapen er implementert i systemet i den hensikt å forbedre naturligheten i talen. To blandede eksitasjonsmodeller er blitt studert, Harmonic plus Noise Model (HNM) og STRAIGHT, i den hensikt å redusere den ”vokodete” klangen på talen. STRAIGHT er modellen som er implementert i denne masteroppgaven. STRAIGHT ekstraherer kontinuerlige og jevne fundamentalfrekvenskurver fra taledatabasen. Systemet bruker en pitsj-adaptiv metode i spektralanalysen og oppnår et glattet spektrogram uten spor av signalperiodisitet. Disse metodene gjør at STRAIGHT kan resyntetisere svært naturlig og forstålig tale. To norske HTS-stemmer med forbedret naturlighet er blitt konfigurert i det generelle tekst-til-tale systemet Festival. Festival gjør det mulig å syntetisere en hvilken som helst norsk setning. Disse setningene er syntetisert med den gamle signalkilden, men det er blitt lagt til tonelag i begge stemmene, og den ene er trent med f0-kurver ekstrahert fra STRAIGHT. Arbeidet med å lage en HTS-stemme basert på taleparametere fra STRAIGHT-modellen, førte ikke frem da tiden ikke strakk til. Stemmen er blitt trent av HTS-systemet og det er blitt generert parametersekvenser STRAIGHT kan lese inn for syntese. Det som gjenstår er selve syntetiseringen. Evaluering av stemmene med hensyn på naturlighet, viser at HTS-stemmen trent med f0-kurver fra STRAIGHT og tonelag, er den stemmen som oppnådde størst naturlighet. HTS-systemet er et svært fleksibelt system som har lite ”fotavtrykk” og er attraktiv i anvendelser av små enheter som har begrenset med lagringsplass og beregningskraft, som f.eks mobiltelefoner og PDAer.
author Mølmen, Lene
author_facet Mølmen, Lene
author_sort Mølmen, Lene
title Forbedret naturlighet i HMM-drevet talesyntese
title_short Forbedret naturlighet i HMM-drevet talesyntese
title_full Forbedret naturlighet i HMM-drevet talesyntese
title_fullStr Forbedret naturlighet i HMM-drevet talesyntese
title_full_unstemmed Forbedret naturlighet i HMM-drevet talesyntese
title_sort forbedret naturlighet i hmm-drevet talesyntese
publisher Norges teknisk-naturvitenskapelige universitet, Institutt for elektronikk og telekommunikasjon
publishDate 2006
url http://urn.kb.se/resolve?urn=urn:nbn:no:ntnu:diva-10262
work_keys_str_mv AT mølmenlene forbedretnaturlighetihmmdrevettalesyntese
AT mølmenlene improvingnaturalnessinhmmbasedspeechsynthesis
_version_ 1716520359845429248