Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa

Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttam...

Full description

Bibliographic Details
Main Authors:	Matero, M. (Matti), Nykänen, M. (Markus), Ojala, K. (Karri)
Format:	Others
Language:	Finnish
Published:	University of Oulu 2016
Online Access:	http://urn.fi/URN:NBN:fi:oulu-201606042297 http://nbn-resolving.de/urn:nbn:fi:oulu-201606042297

id	ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-201606042297
record_format	oai_dc
spelling	ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-2016060422972018-06-20T04:58:04ZVektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessaMatero, M. (Matti)Nykänen, M. (Markus)Ojala, K. (Karri)info:eu-repo/semantics/openAccess© Matti MateroMarkus NykänenKarri Ojala, 2016Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC ja siitä johdettuja delta sekä deltadeltakertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja deltakertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin.This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as preprocessing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and deltadelta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.University of Oulu2016-06-06info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://urn.fi/URN:NBN:fi:oulu-201606042297urn:nbn:fi:oulu-201606042297fin
collection	NDLTD
language	Finnish
format	Others
sources	NDLTD
description	Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC ja siitä johdettuja delta sekä deltadeltakertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja deltakertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin. === This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as preprocessing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and deltadelta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.
author	Matero, M. (Matti) Nykänen, M. (Markus) Ojala, K. (Karri)
spellingShingle	Matero, M. (Matti) Nykänen, M. (Markus) Ojala, K. (Karri) Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
author_facet	Matero, M. (Matti) Nykänen, M. (Markus) Ojala, K. (Karri)
author_sort	Matero, M. (Matti)
title	Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_short	Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_full	Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_fullStr	Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_full_unstemmed	Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_sort	vektorikvantisointi ja gaussin sekoitemalli puhujantunnistuksessa
publisher	University of Oulu
publishDate	2016
url	http://urn.fi/URN:NBN:fi:oulu-201606042297 http://nbn-resolving.de/urn:nbn:fi:oulu-201606042297
work_keys_str_mv	AT materommatti vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa AT nykanenmmarkus vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa AT ojalakkarri vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa
_version_	1718697965923598336

Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa

Similar Items