Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM

Fiala Jiří

DNN-HMM Based Multilingual Recognizer of Telephone Speech

dc.contributor.advisor	Pollák Petr
dc.contributor.author	Fiala Jiří
dc.date.accessioned	2016-06-05T09:42:12Z
dc.date.available	2016-06-05T09:42:12Z
dc.date.issued	2016-05-27
dc.identifier	KOS-587865053505
dc.identifier.uri	http://hdl.handle.net/10467/64783
dc.description.abstract	Tato práce se zabývá problematikou multilingválního akustického modelování založeného na sdíleném fonetickém inventáři pro 5 východoevropských jazyků: češtinu, slovenštinu, polštinu, maďarštinu a ruštinu, které jsou dostupné v souboru databází telefonních signálů SpeechDat-E. Jelikož dostupné výslovnostní slovníky v jednotlivých databázích obsahují výslovnosti za použití SAMPA abeced s neustálenou konvencí napříčí jazyky, není použit pro stejné hlásky v různých jazycích stejný symbol. Byla proto vytvořena jednotící reprezentace na úrovni fonémů pro všechny použité jazyky na bázi X-SAMPA abecedy a tím zajištěna jednotná reprezentace hlásek napříč jazyky. Přínos multiligválního akustického modelu byl analyzován na úloze rozpoznávání spojité řeči. Byla provedena analýza dvou realizací akustického modelování v LVCSR: tj. byl použit standardní GMM-HMM (Gaussian Mixture Model-Hidden Markov Model) a DNN-HMM architektura. Vlastní experimenty byly provedeny pro LVCSR s akustickým modelem pro jednotlivé jazyky a pro mutilingvální systém. Jednotlivé systémy automatického rozpoznávání řeči byly realizovány pomocí nástrojů Kaldi. Jedním z cílů této práce je poskytnout základní návod pro používání Kaldi a vytvořit vzorovou implementaci (angl. recipe) s databázemi z řady SpeechDat. V závislosti na jazyku se nejlepší dosažená úspěšnost GMM-HMM sytému pohybovala v rozmezí 18%-28%WER. DNN-HMM systém přinesl zlepšení v průměru o 4%WER. Pro multi-lingvální HMM systém se pak výsledky pohybovaly v rozmezí od 25%-37%WER. Použití DNN přineslo nakonec další výrazné sníženíWER, v případě multilingválního systému v průměru o 9% pro všech 5 jazyků.	cze
dc.description.abstract	This thesis deals with the multilingual acoustic modeling problem based on the shared global phones inventory for ve East Eurpoean languages: Czech, Russian, Hungarian, Slovak and Polish which are available within SpeechDat-E, i.e. the set of telephone speech databases. Because the SAMPA with unnormalized convention is used to represent the phonetic content of the particular languages and di erent symbols are in several cases representing the same phone, the mapping to the general X-SAMPA phonetic alphabet was proposed in the rst step. The impact of a multilingual acoustic modeling was analyzed on the basis of a continuous speech recognition. The analysis of the acoustic modeling in the LVCSR task was performed for the GMM-HMM system and for the DNN-GMM approach. The experiments were performed for the LVCSR with the language speci c acoustic model same as for the multilingual system. The particular recognizers were implemented via the Kaldi toolkit. One of this thesis goals is to provide a tutorial-style description of the Kaldi usage and create the recipe for the SpeechDat databases. Depending on the language, the best obtained accuracy of HMM recognizers was 18%-28%WER. DNN-HMM improved the results about 4%WER on average. The results for the multilingual HMM system reached the values from 25%-37%WER. The DNN approached had signi cant impact on the speech recognition accuracy for the multilingual system as well and it reduced theWER about 9% on average.	eng
dc.language.iso	ENG
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	cze
dc.subject	rozpoznávání spojité řeči; LVCSR; GMM-HMM systém; DNN-HMM systém; multilingvální systém; akustické modelování; IPA; SAMPA; X-SAMPA; Kaldi	cze
dc.subject	continuous speech recognition; LVCSR; GMM-HMM system; DNN-HMM system; multilingual system; multilingual acoustic modeling; IPA; SAMPA; X-SAMPA; Kaldi	eng
dc.title	Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM	cze
dc.title	DNN-HMM Based Multilingual Recognizer of Telephone Speech	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.date.accepted
dc.contributor.referee	Plátek Ondřej
theses.degree.discipline	Robotika	cze
theses.degree.grantor	katedra kybernetiky	cze
theses.degree.programme	Kybernetika a robotika	cze

Soubory tohoto záznamu

Název:: F3-DP-2016-Fiala-Jiri-DP_Jiri_ ...
Velikost:: 2.008Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2016-Fiala-Jiri-priloha- ...
Velikost:: 1.286Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: MU-DP-2016-posudek-Pollak_Petr.pdf
Velikost:: 676.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: MU-DP-2016-posudek-Platek_Ondr ...
Velikost:: 243.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13133 [495]

Zobrazit minimální záznam

Multilingvální rozpoznávač telefonní řeči na bázi DNN-HMM

Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Související záznamy

Artificial system of controlling renewable hybrid systems ﻿

Bezdrátový softwarový systém pro soutěžní kvízovou hru a informační systém pro její herní komunitu ﻿

Systém pro predikci úspěšnosti a výpočtu skóre módu „mythic+“ ve hřeWorld of Warcraft. – Architektura systému, logika systému, perzistence avizualizace dat. ﻿

Artificial system of controlling renewable hybrid systems

Bezdrátový softwarový systém pro soutěžní kvízovou hru a informační systém pro její herní komunitu

Systém pro predikci úspěšnosti a výpočtu skóre módu „mythic+“ ve hřeWorld of Warcraft. – Architektura systému, logika systému, perzistence avizualizace dat.