Detekce emocí z videa pomocí strojového učení
Emotion Detection from Video Using Machine Learning
Type of document
bakalářská prácebachelor thesis
Author
Jan Sadílek
Supervisor
Novák Daniel
Opponent
Vostatek Pavel
Field of study
Základy umělé inteligence a počítačových vědStudy program
Otevřená informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá detekcí emocí z videa na základě výrazu obličeje, zejména v kon-textu online videohovorů, s cílem zlepšit interakci mezi člověkem a počítačem a te-rapeutické poznatky. Práce je motivována praktickou využitelností v platformě pro přepis a sumarizaci rozhovorů zejména ve zdravotnictví. V rámci práce byl vytvořen nenáročný systém pro rozpoznávání emocí schopný analyzovat delší video sekvence. Klasifikované emoce jsou štěstí, smutek, hněv, strach, znechucení, překvapení, po-hrdání a neutralita. Tento přístup zahrnoval fine-tuning konvoluční neuronové sítě (CNN) Mobile-NetV2 na datové sadě FER2013Plus, při-čemž bylo dosaženo přesnosti 73 % na da-tové sadě FER2013Plus, 60 % na datové sadě CK+ a 47 % na datové sadě RAV-DESS. Uživatelské rozhraní v Reactu a Flask backend server zajistili input a ana-lýzu videa a prokázaly praktickou použi-telnost vyvinutého modelu. Práce popisuje několik omezení tohoto přístupu, zejména: využívání pouze vizu-ální modality, omezené zobecnění, pre-dikce na základě jednoho snímku a ne-vyváženost tříd. This thesis addresses facial expressionbased emotion detection from video, particularly in the context of online video calls, to enhance human-computer interaction and therapeutic insights. Motivated by a practical application in a platform for transcription and summarization of healthcare conversations primarily, the work developed a lightweight emotion recognition system capable of analyzing longer video sequences of individuals directly facing the camera. The emotions classified are happiness, sadness, anger, fear, disgust, surprise, contempt, and neutrality. The approach involved fine-tuning the MobileNetV2 convolutional neural network (CNN) on the FER2013Plus dataset, achieving accuracy levels of 73% on FER2013Plus, 60% on CK+, and 47% on RAVDESS datasets. A React-based user interface and Flask backend facilitated video input and analysis, demonstrating the practical applicability of the developed model. The work noted limitations such as reliance on visual modality only, limited generalization, prediction on a single-frame, and class imbalance.
Collections
- Bakalářské práce - 13133 [851]