Zobrazit minimální záznam

Multilingual Speech Recognition for Selected West-European Languages



dc.contributor.advisorPollák Petr
dc.contributor.authorMontoya Gómez Gloria María
dc.date.accessioned2018-06-07T10:27:41Z
dc.date.available2018-06-07T10:27:41Z
dc.date.issued2018-06-07
dc.identifierKOS-782061658805
dc.identifier.urihttp://hdl.handle.net/10467/76287
dc.description.abstractHlavním cílem předložené práce bylo vytvoření první verze multilingválního rozpoznávače řeči pro vybrané 4 západoevropské jazyky. Klíčovým úkolem této práce bylo definovat vztahy mezi subslovními akustickými elementy napříč jednotlivými jazyky při tvorbě automatického rozpoznávače řeči pro více jazyků. Vytvořený multilingvální systém pokrývá aktuálně následující jazyky: angličtinu, němčinu, portugalštinu a španělštinu. Jelikož dostupná fonetická reprezentace hlásek pro jednotlivé jazyky byla různá podle použitých zdrojových dat, prvním krokem této práce bylo její sjednocení a vytvoření sdílené fonetické reprezentace na bázi abecedy X-SAMPA. Pokud jsou dále acoustické subslovní elementy reprezentovány sdílenými skrytými Markovovy modely, případný nedostatek zdrojových dat pro trénováni může být pokryt z jiných jazyků. Dalším krokem byla vlastní realizace multilingválního systému pomocí nástrojové sady KALDI. Použité jazykové modely byly na bázi zredukovaných trigramových modelů získaných z veřejně dostupých zdrojů. První experimenty byly realizovány pro monoligvální systémy pro výše zmíněné jazyky za účelem získání referenční informace o dosažitelné přesnosti. Následné použití sdíleného jazykového modelu napříč jazyky vedlo k určitému snížení přesnosti rozpoznávání, avšak tato byla nadále velmi vysoká. Nejmenší chyba na úrovni slov (WER) se pohybovala mezi 8.55\% a 12.42\% pro angličtinu a španělštinu. Další dosahované výsledky pro zbývající jazyky odpovídaly velikosti a kvalitě dostupných zdrojů pro získání akustických a jazykových modelů v navrženém rozpoznávacím systému.cze
dc.description.abstractThe main goal of this work was to create the first version of a multilingual speech recognition system for selected four West-European languages. A crucial task of this work was to establish a relationship between subword acoustic units across particular languages which is the core for building of automatic speech recognition (ASR) system for multiple languages. The built multilingual ASR system, up to date, covers the following languages: English, German, Portuguese, and Spanish. Because the phonetic unit representation differed for particular language depending on the database used, the first step was intended to define a general shared phonetic representation based on X-SAMPA. When acoustic phonetic units represented by hidden Markov models (HMMs) are shared, the lack of certain missing training acoustic resources can be then complemented among languages. The following step was to implement the multilingual speech recognition system using KALDI speech recognition toolkit. Language models finally implemented were statistical pruned trigram ones and they were obtained from publicly available resources. The first experiments were carried out across monolingual systems to identify what recognition accuracy could be obtained. Further incorporation of the shared acoustic modeling yielded a reduction in term of accuracy, however, high accuracy results were still obtained. The best word error rates (WER) fluctuate between $8.55\%$ and $12.42\%$. These values correspond to English and Spanish language respectively. Among the results, it was also found that for particular languages, the accuracy strongly depends on the size and quality of available resources for obtaining both acoustic and language models used in designed ASR system.eng
dc.language.isoENG
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectmultilingvální rozpoznávání řeči,akustické modelování,GMM-HMM,rozpoznávání spojité řeči s velkým slovníkem,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPAcze
dc.subjectmultilingual speech recognition,acoustic modeling,GMM-HMM,large vocabulary continuous speech recognition,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPAeng
dc.titleMultilingvální rozpoznávání řeči pro vybrané západoevropské jazykycze
dc.titleMultilingual Speech Recognition for Selected West-European Languageseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted
dc.contributor.refereeRajnoha Josef
theses.degree.disciplineKomunikační systémycze
theses.degree.grantorkatedra teorie obvodůcze
theses.degree.programmeKomunikace, multimédia a elektronikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam