ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Bachelor Theses - 13133
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Bachelor Theses - 13133
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Expertní systém pro určování dominantní projevované emoce z hlasu

Expert System for Determining the Dominant Expressed Emotion from the Voice

Type of document
bakalářská práce
bachelor thesis
Author
Jakub Šmíd
Supervisor
Hejda Jan
Opponent
Křivánek Václav
Study program
Kybernetika a robotika
Institutions assigning rank
katedra kybernetiky



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Obsahem této práce je analýza metod používaných pro rozpoznávání emocí z hlasu, metod pro extrakci příznaků ze hlasových nahrávek, analýza dostupných anotovaných datasetů pro trénování klasifikátoru a implementace systému pro rozpoznávání emocí z hlasu mluvčího. Cílem práce je navržení parametrů klasifikátoru a jeho otestování na produkčních datech. V práci jsou popsány dvě architektury konvolučních neuronových sítí. Obě architektury jsou nezávislé, liší se už samotným vektorem, který do nich vstupuje. Vstupem do první sítě jsou vybrané vlastnosti (příznaky) nahrávek. Za použití této metody bylo při validaci dosaženo 88.2 % přesnosti, ale výsledky sítě velmi závisely na použitých příznacích, proto byla v práci implementována i druhá síť. Vstupem do druhé navržené architektury jsou celé spektrogramy, zde bylo dosaženo přesnosti 76.5 % při validaci. Testování modelů neuronových sítí bylo provedeno na simulaci VHF/UHF vysílaček, kdy k nahrávkám se vzorkovací frekvencí 11 kHz byl připočten bílý šum. Obě architektury dosahují na testovacích datech přibližně stejné přesnosti okolo 50 %. V případě reálného nasazení lze systém použít například pro zajištění bezpečnosti cestujících v letadle tak, že systém bude sledovat emoční rozpoložení pilota. Rozpoznávání emocí z hlasu nachází ale uplatnění i v mnoha jiných oborech.
 
The scope of this thesis is to analyze the methods used for speech emotion recognition, methods for extracting features from voice recordings, analysis of available annotated datasets for training a classifier and implementation of a system for speech emotion recognition. The aim of this work is to design the parameters of the classifier and test it on production data. In this work, two architectures of convolutional neural networks are described. Both architectures are independent, differing in the vector that enters them. The input to the first network is selected features of the recordings. Using this method, the validation achieved 88.2 % accuracy, but the network results were highly dependent on the used features, so a second network was implemented in this work. The input to the second proposed architecture is whole spectrograms, here 76.5 % accuracy was achieved in validation. The neural network models were tested on a simulation of VHF/UHF walkie talkies, where white noise was added to the recordings with a sampling rate of 11 kHz. Both architectures achieve approximately the same accuracy of around 50 % on the test data. If the system is deployed, it can be used, for example, to ensure the safety of passengers on an aircraft by monitoring the emotional state of the pilot. However, voice emotion recognition also finds applications in many other fields.
 
URI
http://hdl.handle.net/10467/101296
View/Open
PLNY_TEXT (5.486Mb)
PRILOHA (22.79Mb)
POSUDEK (247.0Kb)
POSUDEK (210.8Kb)
Collections
  • Bakalářské práce - 13133 [706]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV