WEBový systém pro rozpoznávání řečníka na bázi i-vektorů a x-vektorů

Marek Vavřínek

WEB System of Speaker Recognition Based on i-vectors and x-vectors

Typ dokumentu

diplomová práce
master thesis

Autor

Marek Vavřínek

Vedoucí práce

Pollák Petr

Oponent práce

Rajnoha Josef

Studijní obor

Audiovizuální technika a zpracování signálů

Studijní program

Elektronika a komunikace

Instituce přidělující hodnost

katedra radioelektroniky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Předložená práce se zabývá návrhem systému pro rozpoznávání řečníků a aplikace s webovým rozhraním pro demonstraci funkčnosti systémů rozpoznávání řečníka. Vlastní rozpoznávání řečníků je realizováno pomocí klasického řešení na základě GMM a tzv. i-vektorů, a následně pomocí moderního přístupu využívajícího neuronovou síť a tzv. x-vektorů. Oba systémy jsou implementované nástrojovou sadou Kaldi, natrénované a následně otestované na datech z databáze SPEECON. Webová aplikace je rozdělena na serverovou část a uživatelské rozhraní. Serverová část aplikace je vyvinuta s použitím frameworku Django, na který je systém Kaldi napojený pomocí kontejnerového řešení Docker, zatímco webové uživatelské rozhraní je vytvořeno pomocí frameworku React. Výsledný webový systém je otestovaný na různých počítačových platformách a použitém hardwaru v reálném on-line provozu. Dle zpětné vazby od uživatelů při používání aplikace nenastaly žádné problémy a systém fungoval správně. Dále byly orientačně potvrzeny výsledky funkčnosti systémů rozpoznávání řečníků.

This thesis focuses on the design of speaker recognition system and web interface application for demonstrating functionality speaker recognition systems. The speaker recognition itself is first implemented using classical approach based on GMMs and so-called i-vectors, and subsequently through a modern approach utilizing neural network and so-called x-vectors. Both systems are implemented using the Kaldi toolkit and are trained and then tested on data from the SPEECON database. The server part of the final application is developed using the Django framework, with the Kaldi system connected via Docker container solution, while the web user interface is created using the React framework. The resulting web system is tested on various computing platforms and hardware in real-time online operation. According to user feedback, there were no issues when using the application, and the system functioned correctly. Additionally, the performance results of the speaker recognition systems were indicatively confirmed.