Crowdsourcing av data för Hybrid Code Networks

Task-oriented dialogue systems are a popular way for organisations to generate extra value both internally and for customers. Modern approaches for these dialogue systems that use neural networks to enable training directly on written dialogues are very data hungry, which complicates their implement...

Full description

Bibliographic Details
Main Authors: Linné, Christoffer, Olausson, Pontus
Format: Others
Language:Swedish
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2020
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-281968
Description
Summary:Task-oriented dialogue systems are a popular way for organisations to generate extra value both internally and for customers. Modern approaches for these dialogue systems that use neural networks to enable training directly on written dialogues are very data hungry, which complicates their implementation. Crowdsourcing is an attractive solution for generating this type of training data, but the method also comes with several difficulties. We introduce a new method for generating training data based on parallel crowdsourcing of dialogues, as well as crowdsourced quality review. We use this method to collect a small dataset that takes place within the domain bus driver-traveler. We believe that this method offers an efficient way to collect new, high-quality datasets. Hybrid Code Networks is a model for dialogue systems that combines a neural network with domain-specific knowledge, and thus requires a significantly smaller amount of training data than other similar dialogue systems to achieve comparable performance. By combining Hybrid Code Networks with our new method for generating training data, we believe that the threshold for implementing task-oriented dialogue systems on domains with insufficient training data can be lowered. We implement Hybrid Code Networks and train the implementation on the collected dataset and achieve good results. === Uppgiftsorienterade dialogsystem är ett populärt sätt för företag att generera extra värde både internt och för kunder. Moderna modeller för dessa dialogsystem som använder neurala nätverk för att möjliggöra träning direkt på skriftliga dialoger är väldigt datahungriga, vilket försvårar implementationen av dessa. Crowdsourcing är en attraktiv lösning för att generera denna typ av träningsdata, men metoden kommer även med flera svårigheter. Vi introducerar en ny metod för generering av träningsdata som bygger på parallell crowdsourcing av dialoger, samt crowdsourcad kvalitetsgranskning. Vi använder denna metod för att samla in ett litet dataset som utspelar sig inom domänen busschaufför-resenär. Vi menar att denna metod erbjuder ett effektivt sätt att samla in nya, högkvalitativa dataset. Hybrid Code Networks är en modell för dialogsystem som kombinerar ett neuralt nätverk med domänspecifik kunskap, och som på så sätt kräver en betydligt mindre mängd träningsdata än andra liknande dialogsystem för att uppnå jämförbar prestanda. Genom att kombinera Hybrid Code Networks med vår nya metod för generering av träningsdata menar vi att man kan sänka tröskeln för att implementera uppgiftsorienterade dialogsystem på domäner med otillräcklig träningsdata. Vi implementerar Hybrid Code Networks och tränar implementationen på det insamlade datasetet, och uppnår goda resultat.