Expertní systém pro určování dominantní projevované emoce z hlasu

Jakub Šmíd

Expert System for Determining the Dominant Expressed Emotion from the Voice

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Jakub Šmíd

Vedoucí práce

Hejda Jan

Oponent práce

Křivánek Václav

Studijní program

Kybernetika a robotika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Obsahem této práce je analýza metod používaných pro rozpoznávání emocí z hlasu, metod pro extrakci příznaků ze hlasových nahrávek, analýza dostupných anotovaných datasetů pro trénování klasifikátoru a implementace systému pro rozpoznávání emocí z hlasu mluvčího. Cílem práce je navržení parametrů klasifikátoru a jeho otestování na produkčních datech. V práci jsou popsány dvě architektury konvolučních neuronových sítí. Obě architektury jsou nezávislé, liší se už samotným vektorem, který do nich vstupuje. Vstupem do první sítě jsou vybrané vlastnosti (příznaky) nahrávek. Za použití této metody bylo při validaci dosaženo 88.2 % přesnosti, ale výsledky sítě velmi závisely na použitých příznacích, proto byla v práci implementována i druhá síť. Vstupem do druhé navržené architektury jsou celé spektrogramy, zde bylo dosaženo přesnosti 76.5 % při validaci. Testování modelů neuronových sítí bylo provedeno na simulaci VHF/UHF vysílaček, kdy k nahrávkám se vzorkovací frekvencí 11 kHz byl připočten bílý šum. Obě architektury dosahují na testovacích datech přibližně stejné přesnosti okolo 50 %. V případě reálného nasazení lze systém použít například pro zajištění bezpečnosti cestujících v letadle tak, že systém bude sledovat emoční rozpoložení pilota. Rozpoznávání emocí z hlasu nachází ale uplatnění i v mnoha jiných oborech.

The scope of this thesis is to analyze the methods used for speech emotion recognition, methods for extracting features from voice recordings, analysis of available annotated datasets for training a classifier and implementation of a system for speech emotion recognition. The aim of this work is to design the parameters of the classifier and test it on production data. In this work, two architectures of convolutional neural networks are described. Both architectures are independent, differing in the vector that enters them. The input to the first network is selected features of the recordings. Using this method, the validation achieved 88.2 % accuracy, but the network results were highly dependent on the used features, so a second network was implemented in this work. The input to the second proposed architecture is whole spectrograms, here 76.5 % accuracy was achieved in validation. The neural network models were tested on a simulation of VHF/UHF walkie talkies, where white noise was added to the recordings with a sampling rate of 11 kHz. Both architectures achieve approximately the same accuracy of around 50 % on the test data. If the system is deployed, it can be used, for example, to ensure the safety of passengers on an aircraft by monitoring the emotional state of the pilot. However, voice emotion recognition also finds applications in many other fields.