Zobrazit minimální záznam

DNN-HMM Based Multilingual Recognizer of Telephone Speech



dc.contributor.advisorPollák Petr
dc.contributor.authorFiala Jiří
dc.date.accessioned2016-06-05T09:42:12Z
dc.date.available2016-06-05T09:42:12Z
dc.date.issued2016-05-27
dc.identifierKOS-587865053505
dc.identifier.urihttp://hdl.handle.net/10467/64783
dc.description.abstractTato práce se zabývá problematikou multilingválního akustického modelování založeného na sdíleném fonetickém inventáři pro 5 východoevropských jazyků: češtinu, slovenštinu, polštinu, maďarštinu a ruštinu, které jsou dostupné v souboru databází telefonních signálů SpeechDat-E. Jelikož dostupné výslovnostní slovníky v jednotlivých databázích obsahují výslovnosti za použití SAMPA abeced s neustálenou konvencí napříčí jazyky, není použit pro stejné hlásky v různých jazycích stejný symbol. Byla proto vytvořena jednotící reprezentace na úrovni fonémů pro všechny použité jazyky na bázi X-SAMPA abecedy a tím zajištěna jednotná reprezentace hlásek napříč jazyky. Přínos multiligválního akustického modelu byl analyzován na úloze rozpoznávání spojité řeči. Byla provedena analýza dvou realizací akustického modelování v LVCSR: tj. byl použit standardní GMM-HMM (Gaussian Mixture Model-Hidden Markov Model) a DNN-HMM architektura. Vlastní experimenty byly provedeny pro LVCSR s akustickým modelem pro jednotlivé jazyky a pro mutilingvální systém. Jednotlivé systémy automatického rozpoznávání řeči byly realizovány pomocí nástrojů Kaldi. Jedním z cílů této práce je poskytnout základní návod pro používání Kaldi a vytvořit vzorovou implementaci (angl. recipe) s databázemi z řady SpeechDat. V závislosti na jazyku se nejlepší dosažená úspěšnost GMM-HMM sytému pohybovala v rozmezí 18%-28%WER. DNN-HMM systém přinesl zlepšení v průměru o 4%WER. Pro multi-lingvální HMM systém se pak výsledky pohybovaly v rozmezí od 25%-37%WER. Použití DNN přineslo nakonec další výrazné sníženíWER, v případě multilingválního systému v průměru o 9% pro všech 5 jazyků.cze
dc.description.abstractThis thesis deals with the multilingual acoustic modeling problem based on the shared global phones inventory for ve East Eurpoean languages: Czech, Russian, Hungarian, Slovak and Polish which are available within SpeechDat-E, i.e. the set of telephone speech databases. Because the SAMPA with unnormalized convention is used to represent the phonetic content of the particular languages and di erent symbols are in several cases representing the same phone, the mapping to the general X-SAMPA phonetic alphabet was proposed in the rst step. The impact of a multilingual acoustic modeling was analyzed on the basis of a continuous speech recognition. The analysis of the acoustic modeling in the LVCSR task was performed for the GMM-HMM system and for the DNN-GMM approach. The experiments were performed for the LVCSR with the language speci c acoustic model same as for the multilingual system. The particular recognizers were implemented via the Kaldi toolkit. One of this thesis goals is to provide a tutorial-style description of the Kaldi usage and create the recipe for the SpeechDat databases. Depending on the language, the best obtained accuracy of HMM recognizers was 18%-28%WER. DNN-HMM improved the results about 4%WER on average. The results for the multilingual HMM system reached the values from 25%-37%WER. The DNN approached had signi cant impact on the speech recognition accuracy for the multilingual system as well and it reduced theWER about 9% on average.eng
dc.language.isoENG
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectrozpoznávání spojité řeči; LVCSR; GMM-HMM systém; DNN-HMM systém; multilingvální systém; akustické modelování; IPA; SAMPA; X-SAMPA; Kaldicze
dc.subjectcontinuous speech recognition; LVCSR; GMM-HMM system; DNN-HMM system; multilingual system; multilingual acoustic modeling; IPA; SAMPA; X-SAMPA; Kaldieng
dc.titleMultilingvální rozpoznávač telefonní řeči na bázi DNN-HMMcze
dc.titleDNN-HMM Based Multilingual Recognizer of Telephone Speecheng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted
dc.contributor.refereePlátek Ondřej
theses.degree.disciplineRobotikacze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeKybernetika a robotikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam