Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM
DNN-HMM Based Multilingual Recognizer of Telephone Speech
Typ dokumentu
diplomová prácemaster thesis
Autor
Fiala Jiří
Vedoucí práce
Pollák Petr
Oponent práce
Plátek Ondřej
Studijní obor
RobotikaStudijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá problematikou multilingválního akustického modelování založeného na sdíleném fonetickém inventáři pro 5 východoevropských jazyků: češtinu, slovenštinu, polštinu, maďarštinu a ruštinu, které jsou dostupné v souboru databází telefonních signálů SpeechDat-E. Jelikož dostupné výslovnostní slovníky v jednotlivých databázích obsahují výslovnosti za použití SAMPA abeced s neustálenou konvencí napříčí jazyky, není použit pro stejné hlásky v různých jazycích stejný symbol. Byla proto vytvořena jednotící reprezentace na úrovni fonémů pro všechny použité jazyky na bázi X-SAMPA abecedy a tím zajištěna jednotná reprezentace hlásek napříč jazyky. Přínos multiligválního akustického modelu byl analyzován na úloze rozpoznávání spojité řeči. Byla provedena analýza dvou realizací akustického modelování v LVCSR: tj. byl použit standardní GMM-HMM (Gaussian Mixture Model-Hidden Markov Model) a DNN-HMM architektura. Vlastní experimenty byly provedeny pro LVCSR s akustickým modelem pro jednotlivé jazyky a pro mutilingvální systém. Jednotlivé systémy automatického rozpoznávání řeči byly realizovány pomocí nástrojů Kaldi. Jedním z cílů této práce je poskytnout základní návod pro používání Kaldi a vytvořit vzorovou implementaci (angl. recipe) s databázemi z řady SpeechDat. V závislosti na jazyku se nejlepší dosažená úspěšnost GMM-HMM sytému pohybovala v rozmezí 18%-28%WER. DNN-HMM systém přinesl zlepšení v průměru o 4%WER. Pro multi-lingvální HMM systém se pak výsledky pohybovaly v rozmezí od 25%-37%WER. Použití DNN přineslo nakonec další výrazné sníženíWER, v případě multilingválního systému v průměru o 9% pro všech 5 jazyků. This thesis deals with the multilingual acoustic modeling problem based on the shared global phones inventory for ve East Eurpoean languages: Czech, Russian, Hungarian, Slovak and Polish which are available within SpeechDat-E, i.e. the set of telephone speech databases. Because the SAMPA with unnormalized convention is used to represent the phonetic content of the particular languages and di erent symbols are in several cases representing the same phone, the mapping to the general X-SAMPA phonetic alphabet was proposed in the rst step. The impact of a multilingual acoustic modeling was analyzed on the basis of a continuous speech recognition. The analysis of the acoustic modeling in the LVCSR task was performed for the GMM-HMM system and for the DNN-GMM approach. The experiments were performed for the LVCSR with the language speci c acoustic model same as for the multilingual system. The particular recognizers were implemented via the Kaldi toolkit. One of this thesis goals is to provide a tutorial-style description of the Kaldi usage and create the recipe for the SpeechDat databases. Depending on the language, the best obtained accuracy of HMM recognizers was 18%-28%WER. DNN-HMM improved the results about 4%WER on average. The results for the multilingual HMM system reached the values from 25%-37%WER. The DNN approached had signi cant impact on the speech recognition accuracy for the multilingual system as well and it reduced theWER about 9% on average.
Kolekce
- Diplomové práce - 13133 [495]
Související záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Artificial system of controlling renewable hybrid systems
Autor: Tkachev Stanislav; Vedoucí práce: Bemš Július
(České vysoké učení technické v Praze. Vypočetní a informační centrum., 2014-01-22) -
Bezdrátový softwarový systém pro soutěžní kvízovou hru a informační systém pro její herní komunitu
Autor: Vorobyev Vladimir; Vedoucí práce: Balík Miroslav; Oponent práce: Křikava Filip
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-05-18)Hlavní autorská motivace je tvorba pohodlné a moderní platformy nutnou pro budování globální komunity kvizových her. Práce obsahuje výzkum komponent platformy, jejích integrace mezí sebou a s sociálními sítí a možné podnikové ... -
Systém pro predikci úspěšnosti a výpočtu skóre módu „mythic+“ ve hřeWorld of Warcraft. – Architektura systému, logika systému, perzistence avizualizace dat.
Autor: Martin Lukeš; Vedoucí práce: Šebek Jiří; Oponent práce: Valenta Adam
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2021-06-01)Tato bakalářská práce se zabývá problémem dosavadního hodnocení módu mythic+ ve hře World of Warcraft a převážně pak vývojem nového systému "KeystonePro", který by měl existující nedostatky pokrýt. Vývoj se skládá ze zvolení ...