Zobrazit minimální záznam

DNN-Based Voice Activity Detector



dc.contributor.advisorPollák Petr
dc.contributor.authorLakosil Mojmír
dc.date.accessioned2017-06-07T09:44:14Z
dc.date.available2017-06-07T09:44:14Z
dc.date.issued2017-05-26
dc.identifierKOS-695599614005
dc.identifier.urihttp://hdl.handle.net/10467/68457
dc.description.abstractTato práce řeší problematiku detekce řečové aktivity s použitím hlubokých neuronových sítí. V práci jsou stručně popsány obecné principy detekce řeči, základní používané algoritmy, hlavní pozornost však je věnována analýze funkčnosti detektorů na bázi neuronových sítí. Je studován přínos použití více vrstev neuronové sítě a různých učících algoritmů a provedeno srovnání s detektory na bázi základních třívrstvých sítí. Detektory jsou realizovány s využitím tří různých frameworků, konkrétně v MATLABu, v neural2D toolkitu a ve speciálním toolkitu pro vývoj rozpoznávačů spojité řeči Kaldi. Zdrojové kódy realizovaných detektorů jsou součástí práce a jsou přiloženy na CD-ROM. Bylo také analyzováno použití různých řečových příznaků na vstupu sítě a jako optimální nastavení se ukázalo zřetězení vektorů 13 mel-frekvenčních kepstrálních koeficientů v kontextu 10 předcházejících resp. 10 následujících krátkodobých segmentů. V experimentální části je ověřena a vyhodnocena úspěšnost detekce na dostupných reprezentativních řečových datech z databáze TIMIT resp. QUT-TIMIT. Detekce byla testována v různých prostředích (různým typem aditivního šumu) a s různým SNR. Byla analyzována chybovost detekce v závislosti na zastoupení signálů stejného či podobného typy v souboru signálů pro učení sítě. U realizovaných detektorů bylo dosaženo přesnosti detekce na nezašuměném signálu těsně pod 2%, při 15 dB SNR přibližně 4% a při 0 dB SNR přibližně 5% chybovosti. Experimentálně byl potvrzen předpoklad, že v zašuměném prostředí detekuje optimálně navržená a natrénovaná hluboká neuronová síť hlas lépe než základní třívrstvá síť. V případě čistého záznamu řečového signálu, nebyl přínos DNN oproti třívrstvé síti tak významný.cze
dc.description.abstractThis thesis deals with detection of voice activity based on deep neural networks. It briefly describes classical approaches to voice activity detection and basic VAD algorithms. Its primary focus is on analysis of voice activity detection based on neural networks. This thesis discusses advantages of deep neural network and comparison to basic three layer neural networks. Three implementations of voice activity detectors were developed as part of this work, which were based on three frameworks, namely Matlab, neural2D and Kaldi. Source codes of these detectors are on the attached CD-ROM. Usage of various speech features at the input of the ANN was also analyzed and it was proved that 13 MFCC, 10 short-term segments spliced (previous and consecutive ones) as optimal for voice detection. The speech detection was tested and evaluated using TIMIT and QUT-TIMIT speech databases in the experimental part of the work. The detection was tested in various environments (with various additive noise) and various SNR. The dependency of detection error on coverage of signals of various type in training dataset was also analyzed. The detection error rate achieved with the developed detectors was below 2% for signal with minimum noise background, about 4% with 15 dB SNR and about 5% with 0 dB SNR signal. It was shown that the well designed and trained DNN was more successful than basic three layer ANN in the case of performance in noisy environment. In the case of clear signal, without any noise added, the DNN produced similar error rate as basic three layer ANN.eng
dc.language.isoCZE
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectVAD,DNN,RBM,řeč,neuron,detektorcze
dc.subjectVAD, DNN, RBM, voice, ANN, speech, neuron, detectoreng
dc.titleDetektor řečové aktivity na bázi DNNcze
dc.titleDNN-Based Voice Activity Detectoreng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted2017-06-19
dc.contributor.refereeRajnoha Josef
theses.degree.disciplineKomunikační systémycze
theses.degree.grantorkatedra teorie obvodůcze
theses.degree.programmeKomunikace, multimédia a elektronikacze


Soubory tohoto záznamu








Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam