WEBový systém pro rozpoznávání řečníka na bázi i-vektorů a x-vektorů
WEB System of Speaker Recognition Based on i-vectors and x-vectors
Typ dokumentu
diplomová prácemaster thesis
Autor
Marek Vavřínek
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Audiovizuální technika a zpracování signálůStudijní program
Elektronika a komunikaceInstituce přidělující hodnost
katedra radioelektronikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Předložená práce se zabývá návrhem systému pro rozpoznávání řečníků a aplikace s webovým rozhraním pro demonstraci funkčnosti systémů rozpoznávání řečníka. Vlastní rozpoznávání řečníků je realizováno pomocí klasického řešení na základě GMM a tzv. i-vektorů, a následně pomocí moderního přístupu využívajícího neuronovou síť a tzv. x-vektorů. Oba systémy jsou implementované nástrojovou sadou Kaldi, natrénované a následně otestované na datech z databáze SPEECON. Webová aplikace je rozdělena na serverovou část a uživatelské rozhraní. Serverová část aplikace je vyvinuta s použitím frameworku Django, na který je systém Kaldi napojený pomocí kontejnerového řešení Docker, zatímco webové uživatelské rozhraní je vytvořeno pomocí frameworku React. Výsledný webový systém je otestovaný na různých počítačových platformách a použitém hardwaru v reálném on-line provozu. Dle zpětné vazby od uživatelů při používání aplikace nenastaly žádné problémy a systém fungoval správně. Dále byly orientačně potvrzeny výsledky funkčnosti systémů rozpoznávání řečníků. This thesis focuses on the design of speaker recognition system and web interface application for demonstrating functionality speaker recognition systems. The speaker recognition itself is first implemented using classical approach based on GMMs and so-called i-vectors, and subsequently through a modern approach utilizing neural network and so-called x-vectors. Both systems are implemented using the Kaldi toolkit and are trained and then tested on data from the SPEECON database. The server part of the final application is developed using the Django framework, with the Kaldi system connected via Docker container solution, while the web user interface is created using the React framework. The resulting web system is tested on various computing platforms and hardware in real-time online operation. According to user feedback, there were no issues when using the application, and the system functioned correctly. Additionally, the performance results of the speaker recognition systems were indicatively confirmed.
Kolekce
- Diplomové práce - 13137 [250]