Rozpoznávání spontánní řeči na bázi artikulačních příznaků

Petr Mizera

Applying articulatory features within speech recognition

dc.contributor.advisor	Pollák Petr
dc.contributor.author	Petr Mizera
dc.date.accessioned	2019-10-08T09:19:17Z
dc.date.available	2019-10-08T09:19:17Z
dc.date.issued	2019-09-11
dc.identifier	KOS-413137216805
dc.identifier.uri	http://hdl.handle.net/10467/85527
dc.description.abstract	Předložená disertační práce se zabývá možnými aplikacemi artikulačních příznaků (AF) v úloze rozpoznávání řeči s užším zaměřením na zlepšení rozpoznávání spontánní a neformální řeči pro češtinu. Zejména řeč vytvořená při neformálních rozhovorech je velmi ovlivněna řadou fonetických jevů jako jsou koartikulace, asimilace či redukce hlásek díky méně přesné artikulaci. Artikulační příznaky, které obsahují informaci o produkci řeči, se proto nabízejí jako jedno z možných řešení pro zlepšení přesnosti rozpoznávání neformální řeči. Práce popisuje potenciální přínos TANDEM systémů založených na AF v úlohách rozpoznávání a fonetické segmentaci spontánních promluv. Práce se nejprve zabývá definicí a popisem artikulačních příznaků pro český jazyk a čtyři východoevropské jazyky (slovenštinu, polštinu, maďarštinu a ruštinu), pro které byly artikulační třídy sjednoceny. Druhou významou částí práce je implementace klasifikátorů AF tříd z řečového signálu založených na bázi hlubokých neuronových sítích, včetně výběru vhodných akustických příznaků pro odhad AF. Hlavní pozornost je věnována optimálnímu nastavení časového kontextu na vstupu DNN sítě. Výsledkem experimentální části pak je nalezení časového kontextu v rozmezí 210-310 ms pro všechny analyzované jazyky. AF třídy byly pro češtinu odhadnuty s přesností 90% na úrovni klasifikace v krátkodobých časových rámcích. Dále byla analýzována přesnost odhadu AF v šumu a nepřizpůsobených akustických podmínkách. Zde se prokázala robustnost DCT-TRAP příznaků a jejich vhodnost pro AF klasifikaci. V další části práce jsou použity AF v rozpoznávačích na bázi TANDEM architektury s~cílovým zaměřením na implementaci a optimalizaci rozpoznávání neformální řeči. Nejprve však byly vytvořeny základní systémy resp. akustické modely (GMM-HMM, DNN-HMM resp. TANDEM). Přesnost AF-TANDEM systému byla studována na rozpoznávání anglických hlásek a české řeči. Experimenty ukázaly pozitivní přínos AF-TANDEM na úrovni monofonních a trifónových systémů. Kombinace GMM-HMM/DNN-HMM a AF-TANDEM systémů s AF-TANDEM systémem ukázala významné zlepšení oproti základnímu systému trénovaného bez AF příznaků na úrovni dekódovaných hypotéz. Poslední část práce je věnována fonetické segmentaci realizované pomocí různých akustických modelů (GMM-HMM, DNN-HMM a AF-TANDEM) s přihlédnutím na vhodný výběr výslovnostních variant. Experimenty byly provedeny pro dvě úlohy: anglickou čtenou řeč a českou neformální řeč. Zvýšení uspěšnosti automatické segmentace bylo dosaženo algoritmem dvoufázové fonetické segmentace, kde komplexní DNN-HMM systém je použit pro získání fonetického přepisu pro následné automatické zarovnání pomocí optimalizovaného monofonního systému. V případě složitější úlohy, jako je neformální řeč, kombinace dvou typů DNN-HMM systémů vedla na 90% přesnost určení hranic hlásek. Pro anglickou čtenou řeč byly hranice určeny s 93% přesností.	cze
dc.description.abstract	This thesis deals with possible applications of Articulatory Features (AF) in speech recognition systems with special focus on improvement of Czech spontaneous speech recognition. As spontaneous speech is caused by frequent occurrence of coarticulation process, assimilation and reduction of phones and as AF contain the information about speech production mechanisms, they might represent a possible way how to improve results of these systems. So, the potential contribution of AF-Based TANDEM ASR architecture on the tasks of the recognition or phonetic segmentation of spontaneous speech is described in this work as well as their performance under more adverse acoustic conditions. As the first result, the multi-valued AF classes for Czech and four East-European languages (Slovak, Polish, Hungarian, and Russian) were defined and unified and further work was focused on the estimation of AF using artificial neural networks. The suitability of standard and advanced acoustic speech features were analyzed for the AF estimation, mainly from the point of view of temporal context at the input of ANN/DNN network. The optimum length of 210-310 ms was found across languages. The Czech AF classes were estimated with the average FAcc around 90% The behaviour of AF estimation in mismatched or adverse noisy acoustic conditions was also studied and the robustness of DCT-TRAP features was proved as the best choice for this task. The application of AF within ASR was realized in the form of AF-Based TANDEM system, however, baseline ASR systems had to be prepared, mainly Czech casual speech recognition system with focus on optimization of acoustic and language models as well as the usage of different corpora resources for this task. The performance of the AF-Based TANDEM system was then analyzed for the English phone recognition and Czech ASR tasks. Positive impact of this system was observed for standard monophone ( mono) and triphone (tri1) systems, which are based on MFCC features. The ASR combination of GMM-HMM/DNN-HMM with the AF-Based TANDEM system on the level of lattice with decoded hypotheses significantly improved baseline results. Finally, phonetic segmentation task was analyzed using various type of acoustic model architectures (GMM-HMM, DNN-HMM, and AF-based TANDEM) as well as focusing on proper pronunciation variant selection. It was done for the following two task: read English (TIMIT) and casual Czech (NCCCz) and two-stage forced-alignment with combination of DNN-HMM and optimized monophone-based system was proposed and the improvement of phone boundary determination was proved for both tasks. The 93% phone boundaries accuracy on the level of 30 ms criteria was achieved for read speech in TIMIT, the accuracy around 90% was achieved on for casual one in NCCCz.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Artikulační příznaky	cze
dc.subject	automatické rozpoznávání řeči	cze
dc.subject	rozpoznávání neformální řeči	cze
dc.subject	fonetická segmentace	cze
dc.subject	Kaldi	cze
dc.subject	articulatory features	eng
dc.subject	automatic speech recognition	eng
dc.subject	casual speech recognition	eng
dc.subject	phonetic segmentation	eng
dc.subject	Kaldi	eng
dc.title	Rozpoznávání spontánní řeči na bázi artikulačních příznaků	cze
dc.title	Applying articulatory features within speech recognition	eng
dc.type	disertační práce	cze
dc.type	doctoral thesis	eng
dc.contributor.referee	Psutka Josef
theses.degree.discipline	Teoretická elektrotechnika	cze
theses.degree.grantor	katedra teorie obvodů	cze
theses.degree.programme	Elektrotechnika a informatika	cze

Soubory tohoto záznamu

Název:: F3-D-2019-Mizera-Petr-petr_miz ...
Velikost:: 5.013Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [697]

Zobrazit minimální záznam