Zobrazit minimální záznam

Applying articulatory features within speech recognition



dc.contributor.advisorPollák Petr
dc.contributor.authorPetr Mizera
dc.date.accessioned2019-10-08T09:19:17Z
dc.date.available2019-10-08T09:19:17Z
dc.date.issued2019-09-11
dc.identifierKOS-413137216805
dc.identifier.urihttp://hdl.handle.net/10467/85527
dc.description.abstractPředložená disertační práce se zabývá možnými aplikacemi artikulačních příznaků (AF) v úloze rozpoznávání řeči s užším zaměřením na zlepšení rozpoznávání spontánní a neformální řeči pro češtinu. Zejména řeč vytvořená při neformálních rozhovorech je velmi ovlivněna řadou fonetických jevů jako jsou koartikulace, asimilace  či redukce hlásek díky méně přesné artikulaci. Artikulační příznaky, které obsahují informaci o produkci řeči, se proto nabízejí jako jedno z možných řešení pro zlepšení přesnosti rozpoznávání neformální řeči. Práce popisuje potenciální přínos TANDEM systémů založených na AF v úlohách rozpoznávání a fonetické segmentaci spontánních promluv. Práce se nejprve zabývá definicí a popisem artikulačních příznaků pro český jazyk a čtyři východoevropské jazyky (slovenštinu, polštinu, maďarštinu a ruštinu), pro které byly artikulační třídy sjednoceny. Druhou významou částí práce je implementace klasifikátorů AF tříd z řečového signálu založených na bázi hlubokých neuronových sítích, včetně výběru vhodných akustických příznaků pro odhad AF. Hlavní pozornost je věnována optimálnímu nastavení časového kontextu na vstupu DNN sítě. Výsledkem experimentální části pak je nalezení časového kontextu v rozmezí 210-310 ms pro všechny analyzované jazyky. AF třídy byly pro češtinu odhadnuty s přesností 90% na úrovni klasifikace v krátkodobých časových rámcích. Dále byla analýzována přesnost odhadu AF v šumu a nepřizpůsobených akustických podmínkách. Zde se prokázala robustnost DCT-TRAP příznaků a jejich vhodnost pro AF klasifikaci. V další části práce jsou použity AF v rozpoznávačích na bázi TANDEM architektury s~cílovým zaměřením na implementaci a optimalizaci rozpoznávání neformální řeči. Nejprve však byly vytvořeny základní systémy resp. akustické modely (GMM-HMM, DNN-HMM resp. TANDEM).  Přesnost AF-TANDEM systému byla studována na rozpoznávání anglických hlásek a české řeči. Experimenty ukázaly pozitivní přínos AF-TANDEM na úrovni monofonních a trifónových systémů. Kombinace GMM-HMM/DNN-HMM a AF-TANDEM systémů s AF-TANDEM systémem ukázala významné zlepšení oproti základnímu systému trénovaného bez AF příznaků na úrovni dekódovaných hypotéz. Poslední část práce je věnována fonetické segmentaci realizované pomocí různých akustických modelů (GMM-HMM, DNN-HMM a AF-TANDEM) s přihlédnutím na vhodný výběr výslovnostních variant. Experimenty byly provedeny pro dvě úlohy: anglickou čtenou řeč a českou neformální řeč. Zvýšení uspěšnosti automatické segmentace bylo dosaženo algoritmem dvoufázové fonetické segmentace, kde komplexní DNN-HMM systém je použit pro získání fonetického přepisu pro následné automatické zarovnání pomocí optimalizovaného monofonního systému. V případě složitější úlohy, jako je neformální řeč, kombinace dvou typů DNN-HMM systémů vedla na 90% přesnost určení hranic hlásek. Pro anglickou čtenou řeč byly hranice určeny s 93% přesností.cze
dc.description.abstractThis thesis deals with possible applications of Articulatory Features (AF) in speech recognition systems with special focus on improvement of Czech spontaneous speech recognition. As spontaneous speech is caused by frequent occurrence of coarticulation process, assimilation and reduction of phones and as AF contain the information about speech production mechanisms, they might represent a possible way how to improve results of these systems. So, the potential contribution of AF-Based TANDEM ASR architecture on the tasks of the recognition or phonetic segmentation of spontaneous speech is described in this work as well as their performance under more adverse acoustic conditions. As the first result, the multi-valued AF classes for Czech and four East-European languages (Slovak, Polish, Hungarian, and Russian) were defined and unified and further work was focused on the estimation of AF using artificial neural networks. The suitability of standard and advanced acoustic speech features were analyzed for the AF estimation, mainly from the point of view of temporal context at the input of ANN/DNN network. The optimum length of 210-310 ms was found across languages. The Czech AF classes were estimated with the average FAcc around 90% The behaviour of AF estimation in mismatched or adverse noisy acoustic conditions was also studied and the robustness of DCT-TRAP features was proved as the best choice for this task. The application of AF within ASR was realized in the form of AF-Based TANDEM system, however, baseline ASR systems had to be prepared, mainly Czech casual speech recognition system with focus on optimization of acoustic and language models as well as the usage of different corpora resources for this task. The  performance  of  the  AF-Based  TANDEM  system  was then analyzed  for  the  English phone recognition and Czech ASR tasks. Positive impact of this system was observed for standard monophone ( mono) and triphone (tri1) systems, which are based on MFCC features. The ASR combination of GMM-HMM/DNN-HMM with the AF-Based TANDEM system on the level of lattice with decoded hypotheses significantly improved baseline results. Finally, phonetic segmentation task was analyzed using various type of acoustic model architectures (GMM-HMM, DNN-HMM, and AF-based TANDEM) as well as focusing on proper pronunciation variant selection. It was done for the following two task: read English (TIMIT) and casual Czech (NCCCz) and two-stage forced-alignment with combination of DNN-HMM and optimized monophone-based system was proposed and the improvement of phone boundary determination was proved for both tasks. The 93% phone boundaries accuracy on the level of 30 ms criteria was achieved for read speech in TIMIT, the accuracy around 90% was achieved on for casual one in NCCCz.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectArtikulační příznakycze
dc.subjectautomatické rozpoznávání řečicze
dc.subjectrozpoznávání neformální řečicze
dc.subjectfonetická segmentacecze
dc.subjectKaldicze
dc.subjectarticulatory featureseng
dc.subjectautomatic speech recognitioneng
dc.subjectcasual speech recognitioneng
dc.subjectphonetic segmentationeng
dc.subjectKaldieng
dc.titleRozpoznávání spontánní řeči na bázi artikulačních příznakůcze
dc.titleApplying articulatory features within speech recognitioneng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereePsutka Josef
theses.degree.disciplineTeoretická elektrotechnikacze
theses.degree.grantorkatedra teorie obvodůcze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam