Prediktion av användaromdömen om språkcafé-samtal baserat på automatisk röstanalys

Spoken communication between humans generate information in two channels; the primary channel, linked to the syntactic-semantic part of the speech (what a person is litteraly saying); the secondary channel conveys paralinguistic information (tone, emotional state and gestures). This study examines t...

Full description

Bibliographic Details
Main Authors: Hansson Svan, Angus, Mannerstråle, Carl
Format: Others
Language:Swedish
Published: KTH, Skolan för elektroteknik och datavetenskap (EECS) 2019
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-261639
Description
Summary:Spoken communication between humans generate information in two channels; the primary channel, linked to the syntactic-semantic part of the speech (what a person is litteraly saying); the secondary channel conveys paralinguistic information (tone, emotional state and gestures). This study examines the paralinguistic part of the speech, more specific the tone and emotional state. The study examines if there is a correlation between human speech and the opinion of a participant to a language café based conversation. The language café conversations is moderated by the social robot platform Furhat created by Furhat Robotics. The report is written from two perspectives. A data scientific view where identified emotions in audio files are analysed with machine learning algorithms and mathematical models. Vokaturi, an emotion recognition software, analyses the audio files and quantifies the emotional attributes. The classification model is based upon these attributes and the answers from the language café survey. Speech emotion recognition is also evaluated as a method for gathering customer opinions in a customer feedback loop. The results show an accuracy of 61% and indicates that some sort of prediction is possible. However there is no clear correlation between the recorded human voice and the participants opinion of the conversation. In the discussion part the difficulties of creating a high accuracy model with current data is analysed. It also contains a hypothetic analysis of the model as a gathering method for customer data. === En person som talar sprider information genom en primär samt en sekundär kanal. Den primära kanalen är kopplat till den syntaktiska semantiken av talet (vad personen bokstavligen säger), medan den sekundära kanalen är kopplat till den paralingvistiska delen (ton, känslotillstånd och gester). Denna studie undersöker den paralingvistiska delen av talet, mer specifikt en människas tonläge och känsla. Studien undersöker om det finns någon korrelation mellan mänskligt tal och vad personen tycker om ett parkcafé-samtal. Parkcafé samtalen i denna studie har genomförts tillsammans med den sociala roboten Furhat skapad av Furhat Robotics. Rapporten är skriven ur två perspektiv. Ett datatekniskt perspektiv där känsloyttringar i ljudfiler analyseras med hjälp av maskininlärning och matematiska modeller. Med hjälp av Vokaturi, som tillhandahåller mjukvara för känsloigenkänning av ljud, analyseras inspelade konversationer och attribut för olika känslor kvantifieras. Klassificeringsmodellen skapas sedan av dessa attribut, svar på enkätundersökningar (del ett) samt av författarna egen-annoterade ljudfiler (del två). Dessutom analyseras känsloigenkänning som metod för insamling av användaråsikter ur ett företagsekonomiskt perspektiv. Resultaten påvisar en träffsäkerhet på ca 62% och 61% för del ett respektive två och pekar på att någon form av prediktion är möjlig. Ett tydligt samband mellan deltagarens röst och dess åsikt om samtalet är dock svårt att finna med dessa resultat. I analysen och slutsatsen diskuteras svårigheterna med att ta fram en funktionell modell med tillgänglig data samt en hypotetisk diskussion kring modellen som del av en customer feedback loop.