Rozpoznávání řeči s malým slovníkem s nástroji KALDI
Small Vocabulary Speech Recognition Using KALDI Toolkit
Typ dokumentu
diplomová prácemaster thesis
Autor
Forman Miroslav
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Multimediální technikaStudijní program
Komunikace, multimédia a elektronikaInstituce přidělující hodnost
katedra radioelektronikyObhájeno
2016-02-03Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá návrhem rozpoznávače řeči s malým slovníkem pro použití ovládání různých uživatelských zařízení, zejména ovládání navigace a funkcí v automobilu. Pro tyto účely bylo vytvořeno více jednotlivých rozpoznávačů řeči zaměřených na různé odlišné úlohy rozpoznávání. Každý rozpoznávač byl sestrojen na bázi modelování kontextově nezávislých fonémů pomocí skrytých Markových modelů (HMM) s nástroji balíčku KALDI.
Diplomová práce obsahuje podrobný popis všech bloků vyskytujících se v každém z rozpoznávačů. Z databází SPEECON a Temic byly vybrány testovací promluvy, které byly použity v experimentální části práce. Parametrizací dat byly získány řečové příznaky těchto testovacích promluv. Z výše uvedených databází byla také čerpána data pro trénovací množinu pro použité akustické modely. Dále pro tuto práci byly vytvořeny kombinované jazykové modely na bázi gramatiky a unigramu pro jednotlivé položky v gramatice. Příprava dat a práce s nástroji KALDI byla provedena v prostředí Linux. U experimentální části práce byly zkoumány úspěšnosti rozpoznávání pro výše zmíněné jazykové modely pro dva připravené akustické modely. Pro vyhodnocení úspěšnosti rozpoznávání řeči bylo využíváno klasifikační kritérium WER (word error rate). Nejlepších výsledků dosahoval rozpoznávač názvů měst, který na AM1 s nulovým OOV měl pro dva druhy rozpoznávání hodnotu WER menší než 3%. This thesis describes the design of small vocabulary speech recognizer for application of handling various devices, mainly voice controlled navigation and other functions in automobile. For this purpose several speech recognizers aimed on different tasks of recognition were designed. Each recognizer was built on the base of modeling context-independent phones using Hidden Markov Models (HMM) and WFST approach using KALDI toolkit.
The thesis contains the detailed description of each particular block of created recognizers. The utterances from SPEECON and Temic databases were used in the experimental part. The data parametrization was used for gaining speech features of these utterances. Training data for acoustic models were also taken from above mentioned databases SPEECON and Temic. Furthermore, the language model combining unigrams of particular words and fixed grammar was designed for created recognizers. The recognizers were implemented using KALDI toolkit
under Linux OS. The recognition accuracy for particular above mentioned tasks were analysed in the experimental part for two different acoustic models using standard WER criterion (word error rate). The best results were achieved for the recognizer of cities, where value of WER for two kinds of recognition with AM1 and zero OOV was less than 3%.
Kolekce
- Diplomové práce - 13137 [238]