Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa

Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttam...

Full description

Bibliographic Details
Main Authors: Matero, M. (Matti), Nykänen, M. (Markus), Ojala, K. (Karri)
Format: Others
Language:Finnish
Published: University of Oulu 2016
Online Access:http://urn.fi/URN:NBN:fi:oulu-201606042297
http://nbn-resolving.de/urn:nbn:fi:oulu-201606042297
id ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-201606042297
record_format oai_dc
spelling ndltd-oulo.fi-oai-oulu.fi-nbnfioulu-2016060422972018-06-20T04:58:04ZVektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessaMatero, M. (Matti)Nykänen, M. (Markus)Ojala, K. (Karri)info:eu-repo/semantics/openAccess© Matti MateroMarkus NykänenKarri Ojala, 2016Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja ­varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC­ ja siitä johdettuja delta­ sekä delta­delta­kertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja delta­kertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin.This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as pre­processing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and delta­delta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.University of Oulu2016-06-06info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfhttp://urn.fi/URN:NBN:fi:oulu-201606042297urn:nbn:fi:oulu-201606042297fin
collection NDLTD
language Finnish
format Others
sources NDLTD
description Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja ­varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC­ ja siitä johdettuja delta­ sekä delta­delta­kertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja delta­kertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin. === This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as pre­processing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and delta­delta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.
author Matero, M. (Matti)
Nykänen, M. (Markus)
Ojala, K. (Karri)
spellingShingle Matero, M. (Matti)
Nykänen, M. (Markus)
Ojala, K. (Karri)
Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
author_facet Matero, M. (Matti)
Nykänen, M. (Markus)
Ojala, K. (Karri)
author_sort Matero, M. (Matti)
title Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_short Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_full Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_fullStr Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_full_unstemmed Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa
title_sort vektorikvantisointi ja gaussin sekoitemalli puhujantunnistuksessa
publisher University of Oulu
publishDate 2016
url http://urn.fi/URN:NBN:fi:oulu-201606042297
http://nbn-resolving.de/urn:nbn:fi:oulu-201606042297
work_keys_str_mv AT materommatti vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa
AT nykanenmmarkus vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa
AT ojalakkarri vektorikvantisointijagaussinsekoitemallipuhujantunnistuksessa
_version_ 1718697965923598336