Summary: | Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν το χώρο της τεχνολογίας ομιλίας, με στόχο τη αναγνώριση συναισθημάτων από ομιλία με χρήση τεχνικών ψηφιακής επεξεργασίας σήματος και μηχανικής μάθησης. Πιο αναλυτικά, στα πλαίσια της διατριβής προτάθηκαν και μελετήθηκαν καινοτόμες μέθοδοι σε μια σειρά από εφαρμογές που αξιοποιούν σύστημα αναγνώρισης συναισθηματικών καταστάσεων από ομιλία. Ο βασικός στόχος των μεθόδων ήταν η αντιμετώπιση των προκλήσεων που παρουσιάζονται όταν ένα σύστημα αναγνώρισης συναισθηματικών καταστάσεων καλείται να λειτουργήσει σε πραγματικές συνθήκες, με αυθόρμητες αντιδράσεις, ανεξαρτήτως ομιλητή.
Πιο συγκεκριμένα, στα πλαίσια της διατριβής, αξιολογήθηκε η συμπεριφορά ενός συστήματος αναγνώρισης συναισθημάτων σε προσποιητή ομιλία και σε διαφορετικές συνθήκες θορύβου, και συγκρίθηκε η απόδοση του συστήματος με την υποκειμενική αξιολόγηση των ακροατών. Επιπλέον, περιγράφηκε ο σχεδιασμός και η υλοποίηση βάση δεδομένων συναισθηματικής ομιλίας, όπως αυτή προκύπτει από την αλληλεπίδραση μη-έμπειρων χρηστών με ένα διαλογικό σύστημα και προτάθηκε ένα σύστημα το οποίο εντοπίζει αρνητικές συναισθηματικές καταστάσεις, στο ανεξάρτητου ομιλητή πρόβλημα, με χρήση μοντέλου Γκαουσιανών κατανομών. Η προτεινόμενη αρχιτεκτονική συνδυάζει παραμέτρους ομιλίας χαμηλού και υψηλού επιπέδου και εφαρμόζεται στα πραγματικά δεδομένα. Επίσης, αξιολογήθηκε και υλοποιήθηκε η πρακτική εφαρμογή ενός συστήματος αναγνώρισης συναισθημάτων βασισμένου σε οικουμενικό μοντέλο Γκαουσιανών κατανομών σε διαφορετικούς τύπους δεδομένων πραγματικής ζωής. Ακόμα, παρουσιάστηκε μια πρωτότυπη αρχιτεκτονική κατηγοριοποίησης για αναγνώριση συνυπαρχόντων συναισθημάτων από ομιλία προερχόμενη από αλληλεπίδραση σε πραγματικά περιβάλλοντα. Σε αντίθεση με γνωστές προσεγγίσεις, η προτεινόμενη αρχιτεκτονική μοντελοποιεί τις συνυπάρχουσες συναισθηματικές καταστάσεις μέσω της κατασκευής μιας πολυσταδιακής αρχιτεκτονικής κατηγοριοποίησης. Τα πειραματικά αποτελέσματα που διενεργήθηκαν υποδεικνύουν ότι η προτεινόμενη αρχιτεκτονική είναι πλεονεκτική για τις συναισθηματικές καταστάσεις που είναι πιο διαχωρίσιμες, γεγονός που οδηγεί σε βελτίωση της συνολικής απόδοσης του συστήματος. === In this doctoral dissertation a number of novel approaches were proposed and evaluated in different applications that utilize emotion awareness. The major target of the proposed methods was facing the difficulties existing, when an emotion recognition system is asked to operate in real-life conditions, where human speech is characterized by spontaneous and genuine formulations.
In detail, within the present dissertation, the performance of an emotion recognition system was evaluated, initially, in acted speech, under different noise conditions, and this performance was compared to the one of human listeners. Further, the design and implementation of a real world emotional speech corpus is described, as this results from the interaction of naive users with a smart home dialogue system. Moreover, a system which utilizes low and high level descriptors was suggested. The suggested architecture leads to significantly better performance in some working points of the integrated system in the dialogue system. Furthermore, we propose a novel multistage classification scheme for affect recognition from real-life speech. In contrast with conventional approaches for affect/emotion recognition from speech, the proposed scheme models co-occurring affective states by constructing a multistage classification scheme. The empirical experiments performed indicate that the proposed classification scheme offers an advantage for those classes that are more separable, which contributes for improving the overall performance of the affect recognition system.
|