Show simple item record

Robustness Analysis of TANDEM-Based Speech Recognition System

dc.contributor.advisorPollák Petr
dc.contributor.authorBrich Aleš
dc.date.accessioned2016-06-05T09:42:04Z
dc.date.available2016-06-05T09:42:04Z
dc.date.issued2016-05-27
dc.identifierKOS-587865050905
dc.identifier.urihttp://hdl.handle.net/10467/64773
dc.description.abstractTato práce se zabývá analýzou robustnosti rozpoznávače řeči na bázi TANDEM architektury. Cílem je zjistit, jaký vliv na úspěšnost rozpoznávání mají různé varianty příznakových vektorů, s užším zaměřením na příznaky odhadovanými vícevrstvými sítěmi. K implementaci je použit široce používaný balíček nástrojů Kaldi. Pro splnění cíle práce byl vytvořen tzv. recept, který využívá zavedených konvencí Kaldi nástrojů k modulárnímu sestavení experimentů. Základním zdrojem řečových signálů je databáze SPEECON, která obsahuje signály nahrávané v různých prostředích čtyřmi mikrofony. Pro každé prostředí jsou tedy dostupná data ze čtyř různě kvalitních kanálů. Robustnost je testována na všech dostupných prostředích databáze SPEECON. Pro většinu prostředí bylo dosaženo uspokojivých výsledků, kde se TANDEM systém ukázal jako robustnější a úspěšnější než standardní řešení a to v průměru o přibližně 5 %.cze
dc.description.abstractThis paper deals with the analysis of robustness of a speech recognizer based on the TANDEM architecture. The main goal is to find out which types of the TANDEM architecture feature vectors improve the classification accuracy. The influence of the multi-layer artificial neural network feature vectors is observed in more detail. The implementation is based on the free, widely spread tool called Kaldi and based on its conventions, the Kaldi recipe was created. The main source of data is the SPEECON database which contains the signals recorded in the different environments with the four microphone channels of a different quality of recording. The robustness is tested on all the available environments of the SPEECON database. The satisfying results were achieved for the most of the environments where the TANDEM architecture outperformed the standard approach about 5% WER on average.eng
dc.language.isoCZE
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectrozpoznávání řeči; TANDEM architektura; umělé neuronové sítě; Kaldi; Metacentrumcze
dc.subjectspeech recognition; TANDEM features; artificial neural networks; Kaldi; Metacentrumeng
dc.titleAnalýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architekturycze
dc.titleRobustness Analysis of TANDEM-Based Speech Recognition Systemeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted
dc.contributor.refereePlátek Ondřej
theses.degree.disciplineRobotikacze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeKybernetika a robotikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record