Moderní metody rozpoznávání mluvčího na bázi GMM a DNN

Záruba Michael

Modern Techniques of Speaker Recognition Based on GMM and DNN

Typ dokumentu

diplomová práce
master thesis

Autor

Záruba Michael

Vedoucí práce

Pollák Petr

Oponent práce

Rajnoha Josef

Studijní obor

Komunikační systémy

Studijní program

Komunikace, multimédia a elektronika

Instituce přidělující hodnost

katedra radioelektroniky

Obhájeno

2017-02-01

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce sModerní metody rozpoznávání mluvčího na bázi GMM a DNNe zabývá úlohou hlasové identifikace a verifikace mluvčího. Jejím hlavním cílem je popsat v současné době nejpoužívanější postupy a vybrané metody experimentálně ověřit na dostupných datech. Hlavní pozornost je věnovaná především statistickému modelování na bázi GMM, respektive reprezentaci mluvčích založené na i-vektorech. Dále se práce zaměřuje na metody zvýšení přesnosti identifikace na bázi lineární diskriminační analýzy (LDA), respektive pravděpodobnostní lineární diskriminační analýzy (PLDA). V praktické části byly výše popsané metody realizovány pomocí nástrojů sady KALDI. Přesnost identifikace a verifikace byla otestována na dvou českých databázích, SPEECON a SpeechDat, a to pro různé vstupní podmínky a parametry úlohy. Během realizace byly vytvořeny skripty ("recepty") v souladu se zavedenými standardy sady KALDI. Nejlepších výsledků bylo dosaženo u databáze SPEECON, u které se podařilo pomocí metody PLDA bezchybně identifikovat a verifikovat 284 rozpoznávaných mluvčích. Implementace může být případně později rozšířena za účelem otestování dalších parametrů úlohy nebo jiných databází. Výsledky předložené práce mohou také posloužit při implementaci úlohy hlasové identifikace či verifikace řečníka v reálném provozu.

The present thesis describes voice-based speaker identification and verification, and its main objective is to describe currently the most frequently used techniques and to realize experiments with selected methods using available speech data. The main attention is paied to statistical modelling based on GMM and the representation of speakers based on i-vectors. Further, the attention is turned to methods used to increase the precision of identification, i.e. techniques based on linear discriminant analysis (LDA) or probabilistic linear discriminant analysis (PLDA). In the practical part, described methods were implemented using the KALDI toolkit, and the accuracy of identification and verification was tested for various input conditions and algorithm setups. Two available Czech speech databases, SPEECON and SpeechDat, were used for realized experiments. Throughout the implementation, scripts ("recipes") were created in accordance with approved standards of the KALDI toolkit. The best results were obtained for the PLDA method and SPEECON speech data, where 284 tested speakers were successfully identified and verified with zero error. The implementation may be expanded, with the purpose to include the testing of other algorithms or used speech databases. The results of presented thesis may contribute the implementation of voice-based speaker identification or verification within a real application.