Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition
This work is aimed at exploring semi-supervised learning techniques to improve the performance of Automatic Speech Recognition systems. Semi-supervised learning takes advantage of unlabeled data in order to improve the quality of the representations extracted from the data.The proposed model is a ne...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för datavetenskap och kommunikation (CSC)
2016
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-197628 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-197628 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-1976282018-01-14T05:11:47ZSemi-Supervised Learning with Sparse Autoencoders in Automatic Speech RecognitionengSemi-övervakad inlärning med glesa autoencoders i automatisk taligenkänningDHAKA, AKASH KUMARKTH, Skolan för datavetenskap och kommunikation (CSC)2016machine learningautomatic speech recognitionsemi supervised learningComputer SciencesDatavetenskap (datalogi)This work is aimed at exploring semi-supervised learning techniques to improve the performance of Automatic Speech Recognition systems. Semi-supervised learning takes advantage of unlabeled data in order to improve the quality of the representations extracted from the data.The proposed model is a neural network where the weights are updated by minimizing the weighted sum of a supervised and an unsupervised cost function, simultaneously. These costs are evaluated on the labeled and unlabeled portions of the data set, respectively. The combined cost is optimized through mini-batch stochastic gradient descent via standard backpropagation.The model was tested on a phone classification task on the TIMIT American English data set and on a written digit classification task on the MNIST data set. Our results show that the model outperforms a network trained with standard backpropagation on the labelled material alone. The results are also in line with state-of-the-art graph-based semi-supervised training methods. Detta arbete syftar till att utforska halvövervakade inlärningstekniker (semi-supervised learning techniques) för att förbättra prestandan hos automatiska taligenkänningssystem.Halvövervakad maskininlärning använder sig av data ej märkt med klasstillhörighetsinformation för att förbättra kvaliteten hos den från datan extraherade representationen.Modellen som beskrivs i arbetet är ett neuralt nätverk där vikterna uppdateras genom att samtidigt minimera den viktade summan av en övervakad och en oövervakad kostnadsfunktion.Dessa kostnadsfunktioner evalueras på den märkta respektive den omärkta datamängden.De kombinerade kostnadsfunktionerna optimeras genom gradient descent med hjälp av traditionell backpropagation.Modellen har evaluerats genom en fonklassificeringsuppgift på datamängden TIMIT American English, samt en sifferklassificeringsuppgift på datamängden MNIST.Resultaten visar att modellen presterar bättre än ett nätverk tränat med backpropagation på endast märkt data.Resultaten är även konkurrenskraftiga med rådande state of the art, grafbaserade halvövervakade inlärningsmetoder. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-197628EES Examensarbete / Master Thesisapplication/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
machine learning automatic speech recognition semi supervised learning Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
machine learning automatic speech recognition semi supervised learning Computer Sciences Datavetenskap (datalogi) DHAKA, AKASH KUMAR Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
description |
This work is aimed at exploring semi-supervised learning techniques to improve the performance of Automatic Speech Recognition systems. Semi-supervised learning takes advantage of unlabeled data in order to improve the quality of the representations extracted from the data.The proposed model is a neural network where the weights are updated by minimizing the weighted sum of a supervised and an unsupervised cost function, simultaneously. These costs are evaluated on the labeled and unlabeled portions of the data set, respectively. The combined cost is optimized through mini-batch stochastic gradient descent via standard backpropagation.The model was tested on a phone classification task on the TIMIT American English data set and on a written digit classification task on the MNIST data set. Our results show that the model outperforms a network trained with standard backpropagation on the labelled material alone. The results are also in line with state-of-the-art graph-based semi-supervised training methods. === Detta arbete syftar till att utforska halvövervakade inlärningstekniker (semi-supervised learning techniques) för att förbättra prestandan hos automatiska taligenkänningssystem.Halvövervakad maskininlärning använder sig av data ej märkt med klasstillhörighetsinformation för att förbättra kvaliteten hos den från datan extraherade representationen.Modellen som beskrivs i arbetet är ett neuralt nätverk där vikterna uppdateras genom att samtidigt minimera den viktade summan av en övervakad och en oövervakad kostnadsfunktion.Dessa kostnadsfunktioner evalueras på den märkta respektive den omärkta datamängden.De kombinerade kostnadsfunktionerna optimeras genom gradient descent med hjälp av traditionell backpropagation.Modellen har evaluerats genom en fonklassificeringsuppgift på datamängden TIMIT American English, samt en sifferklassificeringsuppgift på datamängden MNIST.Resultaten visar att modellen presterar bättre än ett nätverk tränat med backpropagation på endast märkt data.Resultaten är även konkurrenskraftiga med rådande state of the art, grafbaserade halvövervakade inlärningsmetoder. |
author |
DHAKA, AKASH KUMAR |
author_facet |
DHAKA, AKASH KUMAR |
author_sort |
DHAKA, AKASH KUMAR |
title |
Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
title_short |
Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
title_full |
Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
title_fullStr |
Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
title_full_unstemmed |
Semi-Supervised Learning with Sparse Autoencoders in Automatic Speech Recognition |
title_sort |
semi-supervised learning with sparse autoencoders in automatic speech recognition |
publisher |
KTH, Skolan för datavetenskap och kommunikation (CSC) |
publishDate |
2016 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-197628 |
work_keys_str_mv |
AT dhakaakashkumar semisupervisedlearningwithsparseautoencodersinautomaticspeechrecognition AT dhakaakashkumar semiovervakadinlarningmedglesaautoencodersiautomatisktaligenkanning |
_version_ |
1718609723614298112 |