Summary: | Tiivistelmä. Työssä tarkasteltiin konvoluutioverkkoon pohjautuvan pienisanastoisen paikallisen puheentunnistuksen tuloksia verrattuna suosittuihin pilvipalveluihin. Saaduista tuloksista arvioitiin tunnistustarkkuutta ja -aikaa työasematietokoneella sekä sulatetulla laitteella suoritettujen testien välillä. Testejä varten koulutettiin kolme puheentunnistuskonvoluutioneuroverkkoa käyttäen eri koulutusalgoritmeja. Pilvipalveluita testeissä edustivat Google SR, Google Cloud SR ja Microsoft Azure SR.
Puheentunnistusjärjestelmiä testattiin käyttäen projektin aikana neuroverkkojen koulutusta varten kerättyjä äänitiedostoja. Testit suoritettiin kahdella eri testilaitteella ja käyttäen kahta eri koulutus-, validointi- ja testausryhmä jakoa. Jaon tarkoituksena oli tarkastella miten paikalliset tunnistustulokset muuttuivat puhujariippuvaisen ja puhujasta riippumattoman koulutusjoukon välillä. Nähtiin, että koulutukseen vaadittaisiin lisää dataa, jotta pystyttäisiin tavoiteltuun 80 % tai suurempaan tunnistustarkkuuteen.
Testeissä myös tarkasteltiin puheentunnistusjärjestelmien suoriutumista, kun syötetiedostoja manipuloitiin aikasiirron tai lisätyn taustamelun/kohinan avulla. Paikalliset tunnistusneuroverkot suoriutuivat paremmin aikasiirtotesteissä 17–19 % tunnistustarkkuuden laskulla verrattuna pilvipalveluiden 20–31 % laskuun. Pilvipalvelut puolestaan suoriutuivat paremmin lisätyn taustamelun ja kohinan testeissä tunnistustarkuuden laskiessa 17–34 % verrattuna paikallisten tunnistusjärjestelmien 27–40 % muutokseen.
Testituloksien perusteella pohdittiin paikallisen ja pilvipalvelupohjaisen puheentunnistuksen vahvuuksia ja heikkouksia sekä miten nämä vaikuttavat potentiaalisiin käyttötarkoituksiin ja -ympäristöihin. Toteamme paikallisten pienisanaisten puheentunnistusjärjestelmien pystyvät kilpailemaan ja jopa ohittamaan alan johtavat pilvipalvelut rajatuissa käyttötarkoituksissa.Local limited vocabulary Finnish speech recognition compared to leading cloud services. Abstract. This work reviews how local small vocabulary Finnish convolutional neural network speech recognition fares against popular cloud services. Collected results were analyzed based on recognition accuracy and time using desktop computer and an embedded device. For the tests, three convolutional neural networks were trained using different training algorithms. Google Speech Recognition, Google Cloud Speech Recognition and Microsoft Azure Speech Recognition were the Finnish supporting cloud based speech recognition services used in the tests.
Speech recognition solutions were tested using audio files that were collected for training the local neural networks. All tests were performed with two test devices and using two differently selected training, validation and testing groups. The reason for two different training groups was to see how the local recognition results change between speaker dependent and independent training groups. The results were that the amount of training data were lacking for the speaker independent speech recognition accuracy to reach the desirable 80% threshold.
The tests also reviewed how different speech recognition systems performed when the test data was manipulated using time shifting and added background noise. Local recognition neural networks performed better in time shift tests with 17–19% decrease in recognition accuracy compared to 20–31% seen in cloud services. The cloud services in turn outperformed local solutions with 17–34% decrease in recognition accuracy compared to 27–40% in test categories with added background noise.
Based on the collected results, the work discusses the strengths and weaknesses of local and cloud based speech recognition and how they affect potential use cases and scenarios. The thesis concludes that local small vocabulary Finnish speech recognition systems can compete with and in some cases even outperform leading cloud services.
|