Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM
DNN-HMM Based Multilingual Recognizer of Telephone Speech
dc.contributor.advisor | Pollák Petr | |
dc.contributor.author | Fiala Jiří | |
dc.date.accessioned | 2016-06-05T09:42:12Z | |
dc.date.available | 2016-06-05T09:42:12Z | |
dc.date.issued | 2016-05-27 | |
dc.identifier | KOS-587865053505 | |
dc.identifier.uri | http://hdl.handle.net/10467/64783 | |
dc.description.abstract | Tato práce se zabývá problematikou multilingválního akustického modelování založeného na sdíleném fonetickém inventáři pro 5 východoevropských jazyků: češtinu, slovenštinu, polštinu, maďarštinu a ruštinu, které jsou dostupné v souboru databází telefonních signálů SpeechDat-E. Jelikož dostupné výslovnostní slovníky v jednotlivých databázích obsahují výslovnosti za použití SAMPA abeced s neustálenou konvencí napříčí jazyky, není použit pro stejné hlásky v různých jazycích stejný symbol. Byla proto vytvořena jednotící reprezentace na úrovni fonémů pro všechny použité jazyky na bázi X-SAMPA abecedy a tím zajištěna jednotná reprezentace hlásek napříč jazyky. Přínos multiligválního akustického modelu byl analyzován na úloze rozpoznávání spojité řeči. Byla provedena analýza dvou realizací akustického modelování v LVCSR: tj. byl použit standardní GMM-HMM (Gaussian Mixture Model-Hidden Markov Model) a DNN-HMM architektura. Vlastní experimenty byly provedeny pro LVCSR s akustickým modelem pro jednotlivé jazyky a pro mutilingvální systém. Jednotlivé systémy automatického rozpoznávání řeči byly realizovány pomocí nástrojů Kaldi. Jedním z cílů této práce je poskytnout základní návod pro používání Kaldi a vytvořit vzorovou implementaci (angl. recipe) s databázemi z řady SpeechDat. V závislosti na jazyku se nejlepší dosažená úspěšnost GMM-HMM sytému pohybovala v rozmezí 18%-28%WER. DNN-HMM systém přinesl zlepšení v průměru o 4%WER. Pro multi-lingvální HMM systém se pak výsledky pohybovaly v rozmezí od 25%-37%WER. Použití DNN přineslo nakonec další výrazné sníženíWER, v případě multilingválního systému v průměru o 9% pro všech 5 jazyků. | cze |
dc.description.abstract | This thesis deals with the multilingual acoustic modeling problem based on the shared global phones inventory for ve East Eurpoean languages: Czech, Russian, Hungarian, Slovak and Polish which are available within SpeechDat-E, i.e. the set of telephone speech databases. Because the SAMPA with unnormalized convention is used to represent the phonetic content of the particular languages and di erent symbols are in several cases representing the same phone, the mapping to the general X-SAMPA phonetic alphabet was proposed in the rst step. The impact of a multilingual acoustic modeling was analyzed on the basis of a continuous speech recognition. The analysis of the acoustic modeling in the LVCSR task was performed for the GMM-HMM system and for the DNN-GMM approach. The experiments were performed for the LVCSR with the language speci c acoustic model same as for the multilingual system. The particular recognizers were implemented via the Kaldi toolkit. One of this thesis goals is to provide a tutorial-style description of the Kaldi usage and create the recipe for the SpeechDat databases. Depending on the language, the best obtained accuracy of HMM recognizers was 18%-28%WER. DNN-HMM improved the results about 4%WER on average. The results for the multilingual HMM system reached the values from 25%-37%WER. The DNN approached had signi cant impact on the speech recognition accuracy for the multilingual system as well and it reduced theWER about 9% on average. | eng |
dc.language.iso | ENG | |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf | cze |
dc.subject | rozpoznávání spojité řeči; LVCSR; GMM-HMM systém; DNN-HMM systém; multilingvální systém; akustické modelování; IPA; SAMPA; X-SAMPA; Kaldi | cze |
dc.subject | continuous speech recognition; LVCSR; GMM-HMM system; DNN-HMM system; multilingual system; multilingual acoustic modeling; IPA; SAMPA; X-SAMPA; Kaldi | eng |
dc.title | Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM | cze |
dc.title | DNN-HMM Based Multilingual Recognizer of Telephone Speech | eng |
dc.type | diplomová práce | cze |
dc.type | master thesis | eng |
dc.date.accepted | ||
dc.contributor.referee | Plátek Ondřej | |
theses.degree.discipline | Robotika | cze |
theses.degree.grantor | katedra kybernetiky | cze |
theses.degree.programme | Kybernetika a robotika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Diplomové práce - 13133 [474]