VATS : Voice-Activated Targeting System

Machine learning implementations in computer vision and speech recognition are wide and growing; both low- and high-level applications being required. This paper takes a look at the former and if basic implementations are good enough for real-world applications. To demonstrate this, a simple artific...

Full description

Bibliographic Details
Main Author: MELLO, SIMON
Format: Others
Language:English
Published: KTH, Skolan för industriell teknik och management (ITM) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279837
id ndltd-UPSALLA1-oai-DiVA.org-kth-279837
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-kth-2798372020-12-03T05:28:59ZVATS : Voice-Activated Targeting SystemengVATS : Röstaktiverat IdentifieringssystemMELLO, SIMONKTH, Skolan för industriell teknik och management (ITM)2020mechatronicscomputer visionspeech recognitionmachine learningartificial neural networkmekatronikdatorseendetaligenkänningmaskininlärningartificiellt neuronnätEngineering and TechnologyTeknik och teknologierMachine learning implementations in computer vision and speech recognition are wide and growing; both low- and high-level applications being required. This paper takes a look at the former and if basic implementations are good enough for real-world applications. To demonstrate this, a simple artificial neural network coded in Python and already existing libraries for Python are used to control a laser pointer via a servomotor and an Arduino, to create a voice-activated targeting system. The neural network trained on MNIST data consistently achieves an accuracy of 0.95 ± 0.01 when classifying MNIST test data, but also classifies captured images correctly if noise-levels are low. This also applies to the speech recognition, rarely giving wrong readings. The final prototype achieves success in all domains except turning the correctly classified images into targets that the Arduino can read and aim at, failing to merge the computer vision and speech recognition. Maskininlärning är viktigt inom röstigenkänning och datorseende, för både små såväl som stora applikationer. Syftet med det här projektet är att titta på om enkla implementationer av maskininlärning duger för den verkligen världen. Ett enkelt artificiellt neuronnät kodat i Python, samt existerande programbibliotek för Python, används för att kontrollera en laserpekare via en servomotor och en Arduino, för att skapa ett röstaktiverat identifieringssystem. Neuronnätet tränat på MNIST data når en precision på 0.95 ± 0.01 när den försöker klassificera MNIST test data, men lyckas även klassificera inspelade bilder korrekt om störningen är låg. Detta gäller även för röstigenkänningen, då den sällan ger fel avläsningar. Den slutliga prototypen lyckas i alla domäner förutom att förvandla bilder som klassificerats korrekt till mål som Arduinon kan läsa av och sikta på, vilket betyder att prototypen inte lyckas sammanfoga röstigenkänningen och datorseendet. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279837TRITA-ITM-EX ; 2020:47application/pdfinfo:eu-repo/semantics/openAccessvideo/mp4info:eu-repo/semantics/openAccess
collection NDLTD
language English
format Others
sources NDLTD
topic mechatronics
computer vision
speech recognition
machine learning
artificial neural network
mekatronik
datorseende
taligenkänning
maskininlärning
artificiellt neuronnät
Engineering and Technology
Teknik och teknologier
spellingShingle mechatronics
computer vision
speech recognition
machine learning
artificial neural network
mekatronik
datorseende
taligenkänning
maskininlärning
artificiellt neuronnät
Engineering and Technology
Teknik och teknologier
MELLO, SIMON
VATS : Voice-Activated Targeting System
description Machine learning implementations in computer vision and speech recognition are wide and growing; both low- and high-level applications being required. This paper takes a look at the former and if basic implementations are good enough for real-world applications. To demonstrate this, a simple artificial neural network coded in Python and already existing libraries for Python are used to control a laser pointer via a servomotor and an Arduino, to create a voice-activated targeting system. The neural network trained on MNIST data consistently achieves an accuracy of 0.95 ± 0.01 when classifying MNIST test data, but also classifies captured images correctly if noise-levels are low. This also applies to the speech recognition, rarely giving wrong readings. The final prototype achieves success in all domains except turning the correctly classified images into targets that the Arduino can read and aim at, failing to merge the computer vision and speech recognition. === Maskininlärning är viktigt inom röstigenkänning och datorseende, för både små såväl som stora applikationer. Syftet med det här projektet är att titta på om enkla implementationer av maskininlärning duger för den verkligen världen. Ett enkelt artificiellt neuronnät kodat i Python, samt existerande programbibliotek för Python, används för att kontrollera en laserpekare via en servomotor och en Arduino, för att skapa ett röstaktiverat identifieringssystem. Neuronnätet tränat på MNIST data når en precision på 0.95 ± 0.01 när den försöker klassificera MNIST test data, men lyckas även klassificera inspelade bilder korrekt om störningen är låg. Detta gäller även för röstigenkänningen, då den sällan ger fel avläsningar. Den slutliga prototypen lyckas i alla domäner förutom att förvandla bilder som klassificerats korrekt till mål som Arduinon kan läsa av och sikta på, vilket betyder att prototypen inte lyckas sammanfoga röstigenkänningen och datorseendet.
author MELLO, SIMON
author_facet MELLO, SIMON
author_sort MELLO, SIMON
title VATS : Voice-Activated Targeting System
title_short VATS : Voice-Activated Targeting System
title_full VATS : Voice-Activated Targeting System
title_fullStr VATS : Voice-Activated Targeting System
title_full_unstemmed VATS : Voice-Activated Targeting System
title_sort vats : voice-activated targeting system
publisher KTH, Skolan för industriell teknik och management (ITM)
publishDate 2020
url http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-279837
work_keys_str_mv AT mellosimon vatsvoiceactivatedtargetingsystem
AT mellosimon vatsrostaktiveratidentifieringssystem
_version_ 1719368180580745216