Moderní metody rozpoznávání mluvčího na bázi GMM a DNN
Modern Techniques of Speaker Recognition Based on GMM and DNN
Typ dokumentu
diplomová prácemaster thesis
Autor
Záruba Michael
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Komunikační systémyStudijní program
Komunikace, multimédia a elektronikaInstituce přidělující hodnost
katedra radioelektronikyObhájeno
2017-02-01Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce sModerní metody rozpoznávání mluvčího na bázi GMM a DNNe zabývá úlohou hlasové identifikace a verifikace mluvčího. Jejím hlavním cílem je popsat v současné době nejpoužívanější postupy a vybrané metody experimentálně ověřit na dostupných datech. Hlavní pozornost je věnovaná především statistickému modelování na bázi GMM, respektive reprezentaci mluvčích založené na i-vektorech. Dále se práce zaměřuje na metody zvýšení přesnosti identifikace na bázi lineární diskriminační analýzy (LDA), respektive pravděpodobnostní lineární diskriminační analýzy (PLDA). V praktické části byly výše popsané metody realizovány pomocí nástrojů sady KALDI. Přesnost identifikace a verifikace byla otestována na dvou českých databázích, SPEECON a SpeechDat, a to pro různé vstupní podmínky a parametry úlohy. Během realizace byly vytvořeny skripty ("recepty") v souladu se zavedenými standardy sady KALDI. Nejlepších výsledků bylo dosaženo u databáze SPEECON, u které se podařilo pomocí metody PLDA bezchybně identifikovat a verifikovat 284 rozpoznávaných mluvčích. Implementace může být případně později rozšířena za účelem otestování dalších parametrů úlohy nebo jiných databází. Výsledky předložené práce mohou také posloužit při implementaci úlohy hlasové identifikace či verifikace řečníka v reálném provozu. The present thesis describes voice-based speaker identification and verification, and its main objective is to describe currently the most frequently used techniques and to realize experiments with selected methods using available speech data. The main attention is paied to statistical modelling based on GMM and the representation of speakers based on i-vectors. Further, the attention is turned to methods used to increase the precision of identification, i.e. techniques based on linear discriminant analysis (LDA) or probabilistic linear discriminant analysis (PLDA). In the practical part, described methods were implemented using the KALDI toolkit, and the accuracy of identification and verification was tested for various input conditions and algorithm setups. Two available Czech speech databases, SPEECON and SpeechDat, were used for realized experiments. Throughout the implementation, scripts ("recipes") were created in accordance with approved standards of the KALDI toolkit. The best results were obtained for the PLDA method and SPEECON speech data, where 284 tested speakers were successfully identified and verified with zero error. The implementation may be expanded, with the purpose to include the testing of other algorithms or used speech databases. The results of presented thesis may contribute the implementation of voice-based speaker identification or verification within a real application.
Kolekce
- Diplomové práce - 13137 [250]