Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury
Robustness Analysis of TANDEM-Based Speech Recognition System
Type of document
diplomová prácemaster thesis
Author
Brich Aleš
Supervisor
Pollák Petr
Opponent
Plátek Ondřej
Field of study
RobotikaStudy program
Kybernetika a robotikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Tato práce se zabývá analýzou robustnosti rozpoznávače řeči na bázi TANDEM architektury. Cílem je zjistit, jaký vliv na úspěšnost rozpoznávání mají různé varianty příznakových vektorů, s užším zaměřením na příznaky odhadovanými vícevrstvými sítěmi. K implementaci je použit široce používaný balíček nástrojů Kaldi. Pro splnění cíle práce byl vytvořen tzv. recept, který využívá zavedených konvencí Kaldi nástrojů k modulárnímu sestavení experimentů. Základním zdrojem řečových signálů je databáze SPEECON, která obsahuje signály nahrávané v různých prostředích čtyřmi mikrofony. Pro každé prostředí jsou tedy dostupná data ze čtyř různě kvalitních kanálů. Robustnost je testována na všech dostupných prostředích databáze SPEECON. Pro většinu prostředí bylo dosaženo uspokojivých výsledků, kde se TANDEM systém ukázal jako robustnější a úspěšnější než standardní řešení a to v průměru o přibližně 5 %. This paper deals with the analysis of robustness of a speech recognizer based on the TANDEM architecture. The main goal is to find out which types of the TANDEM architecture feature vectors improve the classification accuracy. The influence of the multi-layer artificial neural network feature vectors is observed in more detail. The implementation is based on the free, widely spread tool called Kaldi and based on its conventions, the Kaldi recipe was created. The main source of data is the SPEECON database which contains the signals recorded in the different environments with the four microphone channels of a different quality of recording. The robustness is tested on all the available environments of the SPEECON database. The satisfying results were achieved for the most of the environments where the TANDEM architecture outperformed the standard approach about 5% WER on average.
Collections
- Diplomové práce - 13133 [495]