Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus

Two heretofore unanalyzed aspects are addressed in this dissertation: 1. Building a model capable of predicting phone duration of Lithuanian. All existing investigations of phone durations of Lithuanian were performed by linguists. Usually these investigations are the kind of exploratory statistic...

Full description

Bibliographic Details
Main Author:	Norkevičius, Giedrius
Other Authors:	Kaminskas, Vytautas
Format:	Doctoral Thesis
Language:	English
Published:	Lithuanian Academic Libraries Network (LABT) 2011
Subjects:	Informatics Phone duration modeling Text-to-speech synthesis CART Multi-speaker corpus Garsų trukmių modeliai Šnekos sintezė Klasifikavimo ir regresijos medžiai Daugelio kalbėtojų garsynas
Online Access:	http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110201_144440-12017/DS.005.1.01.ETD

id	ndltd-LABT_ETD-oai-elaba.lt-LT-eLABa-0001-E.02~2011~D_20110201_144440-12017
record_format	oai_dc
spelling	ndltd-LABT_ETD-oai-elaba.lt-LT-eLABa-0001-E.02~2011~D_20110201_144440-120172014-01-17T03:47:18Z2011-02-01engInformaticsNorkevičius, GiedriusMethod for creating phone duration models using very large, multi-speaker, automatically annotated speech corpusGarsų trukmių modelių kūrimo metodas, naudojant didelės apimties daugelio kalbėtojų garsynąLithuanian Academic Libraries Network (LABT)Two heretofore unanalyzed aspects are addressed in this dissertation: 1. Building a model capable of predicting phone duration of Lithuanian. All existing investigations of phone durations of Lithuanian were performed by linguists. Usually these investigations are the kind of exploratory statistics and are limited to a single factor, affecting phone duration, analysis. Phone duration dependencies on contextual factors were estimated and written in explicit form (decision tree) in this work by means of machine learning method. 2. Construction of language independent method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus. Most of the researchers worldwide use speech corpus that are: relatively small scale, single speaker, manually annotated or at least validated by experts. Usually the referred reasons are: using multi-speaker speech corpora is inappropriate because different speakers have different pronunciation manners and speak in different speech rate; automatically annotated corpuses lack accuracy. The created method for phone duration modeling enables the use of such corpus. The main components of the created method are: the reduction of noisy data in speech corpus; normalization of speaker specific phone durations by using phone type clustering. The performed listening tests of synthesized speech, showed that: the perceived naturalness is affected by the underlying phones durations; The use of contextual... [to full text]Disertacijoje nagrinėjamos dvi iki šiol netyrinėtos problemos: 1. Lietuvių kalbos garsų trukmių prognozavimo modelių kūrimas Iki šiol visi darbai, kuriuose yra nagrinėjamos lietuvių kalbos garsų trukmės, yra atlikti kalbininkų, tačiau šie tyrimai yra daugiau aprašomosios statistikos pobūdžio ir apsiriboja pavienių požymių įtakos garso trukmei analize. Šiame darbe, mašininio mokymo algoritmo pagalba, požymių įtaka garsų trukmei yra išmokstama iš duomenų ir užrašoma sprendimo medžio pavidalu. 2. Nuo kalbos nepriklausomų garsų trukmių prognozavimo modelių kūrimo metodas, naudojant didelės apimties daugelio, kalbėtojų automatiškai, anotuotą garsyną. Dėl skirtingų kalbėtojų tarties specifikos ir dėl automatinio anotavimo netikslumų, kuriant garsų trukmės modelius visame pasaulyje yra apsiribojama vieno kalbėtojo ekspertų anotuotais nedidelės apimties garsynais. Darbe pasiūlyti skirtingų kalbėtojų tarties ypatybių normalizavimo ir garsyno duomenų triukšmo atmetimo algoritmai leidžia garsų trukmių modelių kūrimui naudoti didelės apimties, daugelio kalbėtojų automatiškai anotuotus garsynus. Darbo metu atliktas audicinis tyrimas, kurio pagalba parodoma, kad šnekos signalą sudarančių garsų trukmės turi įtakos klausytojų/respondentų suvokiamam šnekos signalo natūralumui; kontekstinės informacijos panaudojimas garsų trukmių prognozavimo uždavinio sprendime yra svarbus faktorius įtakojantis sintezuotos šnekos natūralumą; natūralaus šnekos signalo atžvilgiu, geriausiai vertinamas yra... [toliau žr. visą tekstą]Phone duration modelingText-to-speech synthesisCARTMulti-speaker corpusGarsų trukmių modeliaiŠnekos sintezėKlasifikavimo ir regresijos medžiaiDaugelio kalbėtojų garsynasDoctoral thesisKaminskas, VytautasZavadskas, EdmundasŽilinskas, AntanasPranevičius, HenrikasRudžionis, VytautasKrikštolaitis, RičardasTelksnys, LaimutisRaškinis, GailiusVytautas Magnus UniversityVytautas Magnus Universityhttp://vddb.laba.lt/obj/LT-eLABa-0001:E.02~2011~D_20110201_144440-12017LT-eLABa-0001:E.02~2011~D_20110201_144440-12017VDU-nmyasewoydn-20110113-112922http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110201_144440-12017/DS.005.1.01.ETDUnrestrictedapplication/pdf
collection	NDLTD
language	English
format	Doctoral Thesis
sources	NDLTD
topic	Informatics Phone duration modeling Text-to-speech synthesis CART Multi-speaker corpus Garsų trukmių modeliai Šnekos sintezė Klasifikavimo ir regresijos medžiai Daugelio kalbėtojų garsynas
spellingShingle	Informatics Phone duration modeling Text-to-speech synthesis CART Multi-speaker corpus Garsų trukmių modeliai Šnekos sintezė Klasifikavimo ir regresijos medžiai Daugelio kalbėtojų garsynas Norkevičius, Giedrius Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
description	Two heretofore unanalyzed aspects are addressed in this dissertation: 1. Building a model capable of predicting phone duration of Lithuanian. All existing investigations of phone durations of Lithuanian were performed by linguists. Usually these investigations are the kind of exploratory statistics and are limited to a single factor, affecting phone duration, analysis. Phone duration dependencies on contextual factors were estimated and written in explicit form (decision tree) in this work by means of machine learning method. 2. Construction of language independent method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus. Most of the researchers worldwide use speech corpus that are: relatively small scale, single speaker, manually annotated or at least validated by experts. Usually the referred reasons are: using multi-speaker speech corpora is inappropriate because different speakers have different pronunciation manners and speak in different speech rate; automatically annotated corpuses lack accuracy. The created method for phone duration modeling enables the use of such corpus. The main components of the created method are: the reduction of noisy data in speech corpus; normalization of speaker specific phone durations by using phone type clustering. The performed listening tests of synthesized speech, showed that: the perceived naturalness is affected by the underlying phones durations; The use of contextual... [to full text] === Disertacijoje nagrinėjamos dvi iki šiol netyrinėtos problemos: 1. Lietuvių kalbos garsų trukmių prognozavimo modelių kūrimas Iki šiol visi darbai, kuriuose yra nagrinėjamos lietuvių kalbos garsų trukmės, yra atlikti kalbininkų, tačiau šie tyrimai yra daugiau aprašomosios statistikos pobūdžio ir apsiriboja pavienių požymių įtakos garso trukmei analize. Šiame darbe, mašininio mokymo algoritmo pagalba, požymių įtaka garsų trukmei yra išmokstama iš duomenų ir užrašoma sprendimo medžio pavidalu. 2. Nuo kalbos nepriklausomų garsų trukmių prognozavimo modelių kūrimo metodas, naudojant didelės apimties daugelio, kalbėtojų automatiškai, anotuotą garsyną. Dėl skirtingų kalbėtojų tarties specifikos ir dėl automatinio anotavimo netikslumų, kuriant garsų trukmės modelius visame pasaulyje yra apsiribojama vieno kalbėtojo ekspertų anotuotais nedidelės apimties garsynais. Darbe pasiūlyti skirtingų kalbėtojų tarties ypatybių normalizavimo ir garsyno duomenų triukšmo atmetimo algoritmai leidžia garsų trukmių modelių kūrimui naudoti didelės apimties, daugelio kalbėtojų automatiškai anotuotus garsynus. Darbo metu atliktas audicinis tyrimas, kurio pagalba parodoma, kad šnekos signalą sudarančių garsų trukmės turi įtakos klausytojų/respondentų suvokiamam šnekos signalo natūralumui; kontekstinės informacijos panaudojimas garsų trukmių prognozavimo uždavinio sprendime yra svarbus faktorius įtakojantis sintezuotos šnekos natūralumą; natūralaus šnekos signalo atžvilgiu, geriausiai vertinamas yra... [toliau žr. visą tekstą]
author2	Kaminskas, Vytautas
author_facet	Kaminskas, Vytautas Norkevičius, Giedrius
author	Norkevičius, Giedrius
author_sort	Norkevičius, Giedrius
title	Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
title_short	Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
title_full	Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
title_fullStr	Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
title_full_unstemmed	Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
title_sort	method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus
publisher	Lithuanian Academic Libraries Network (LABT)
publishDate	2011
url	http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2011~D_20110201_144440-12017/DS.005.1.01.ETD
work_keys_str_mv	AT norkeviciusgiedrius methodforcreatingphonedurationmodelsusingverylargemultispeakerautomaticallyannotatedspeechcorpus AT methodforcreatingphonedurationmodelsusingverylargemultispeakerautomaticallyannotatedspeechcorpus AT norkeviciusgiedrius garsutrukmiumodeliukurimometodasnaudojantdidelesapimtiesdaugeliokalbetojugarsyna AT garsutrukmiumodeliukurimometodasnaudojantdidelesapimtiesdaugeliokalbetojugarsyna
_version_	1716626283042963456

Method for creating phone duration models using very large, multi-speaker, automatically annotated speech corpus

Similar Items