Detektor řečové aktivity na bázi DNN

Lakosil Mojmír

DNN-Based Voice Activity Detector

Type of document

diplomová práce
master thesis

Author

Lakosil Mojmír

Supervisor

Pollák Petr

Opponent

Rajnoha Josef

Field of study

Komunikační systémy

Study program

Komunikace, multimédia a elektronika

Institutions assigning rank

katedra teorie obvodů

Defended

2017-06-19

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Tato práce řeší problematiku detekce řečové aktivity s použitím hlubokých neuronových sítí. V práci jsou stručně popsány obecné principy detekce řeči, základní používané algoritmy, hlavní pozornost však je věnována analýze funkčnosti detektorů na bázi neuronových sítí. Je studován přínos použití více vrstev neuronové sítě a různých učících algoritmů a provedeno srovnání s detektory na bázi základních třívrstvých sítí. Detektory jsou realizovány s využitím tří různých frameworků, konkrétně v MATLABu, v neural2D toolkitu a ve speciálním toolkitu pro vývoj rozpoznávačů spojité řeči Kaldi. Zdrojové kódy realizovaných detektorů jsou součástí práce a jsou přiloženy na CD-ROM. Bylo také analyzováno použití různých řečových příznaků na vstupu sítě a jako optimální nastavení se ukázalo zřetězení vektorů 13 mel-frekvenčních kepstrálních koeficientů v kontextu 10 předcházejících resp. 10 následujících krátkodobých segmentů. V experimentální části je ověřena a vyhodnocena úspěšnost detekce na dostupných reprezentativních řečových datech z databáze TIMIT resp. QUT-TIMIT. Detekce byla testována v různých prostředích (různým typem aditivního šumu) a s různým SNR. Byla analyzována chybovost detekce v závislosti na zastoupení signálů stejného či podobného typy v souboru signálů pro učení sítě. U realizovaných detektorů bylo dosaženo přesnosti detekce na nezašuměném signálu těsně pod 2%, při 15 dB SNR přibližně 4% a při 0 dB SNR přibližně 5% chybovosti. Experimentálně byl potvrzen předpoklad, že v zašuměném prostředí detekuje optimálně navržená a natrénovaná hluboká neuronová síť hlas lépe než základní třívrstvá síť. V případě čistého záznamu řečového signálu, nebyl přínos DNN oproti třívrstvé síti tak významný.

This thesis deals with detection of voice activity based on deep neural networks. It briefly describes classical approaches to voice activity detection and basic VAD algorithms. Its primary focus is on analysis of voice activity detection based on neural networks. This thesis discusses advantages of deep neural network and comparison to basic three layer neural networks. Three implementations of voice activity detectors were developed as part of this work, which were based on three frameworks, namely Matlab, neural2D and Kaldi. Source codes of these detectors are on the attached CD-ROM. Usage of various speech features at the input of the ANN was also analyzed and it was proved that 13 MFCC, 10 short-term segments spliced (previous and consecutive ones) as optimal for voice detection. The speech detection was tested and evaluated using TIMIT and QUT-TIMIT speech databases in the experimental part of the work. The detection was tested in various environments (with various additive noise) and various SNR. The dependency of detection error on coverage of signals of various type in training dataset was also analyzed. The detection error rate achieved with the developed detectors was below 2% for signal with minimum noise background, about 4% with 15 dB SNR and about 5% with 0 dB SNR signal. It was shown that the well designed and trained DNN was more successful than basic three layer ANN in the case of performance in noisy environment. In the case of clear signal, without any noise added, the DNN produced similar error rate as basic three layer ANN.