Multilingvální rozpoznávání řeči pro vybrané západoevropské jazyky

Montoya Gómez Gloria María

Multilingual Speech Recognition for Selected West-European Languages

dc.contributor.advisor	Pollák Petr
dc.contributor.author	Montoya Gómez Gloria María
dc.date.accessioned	2018-06-07T10:27:41Z
dc.date.available	2018-06-07T10:27:41Z
dc.date.issued	2018-06-07
dc.identifier	KOS-782061658805
dc.identifier.uri	http://hdl.handle.net/10467/76287
dc.description.abstract	Hlavním cílem předložené práce bylo vytvoření první verze multilingválního rozpoznávače řeči pro vybrané 4 západoevropské jazyky. Klíčovým úkolem této práce bylo definovat vztahy mezi subslovními akustickými elementy napříč jednotlivými jazyky při tvorbě automatického rozpoznávače řeči pro více jazyků. Vytvořený multilingvální systém pokrývá aktuálně následující jazyky: angličtinu, němčinu, portugalštinu a španělštinu. Jelikož dostupná fonetická reprezentace hlásek pro jednotlivé jazyky byla různá podle použitých zdrojových dat, prvním krokem této práce bylo její sjednocení a vytvoření sdílené fonetické reprezentace na bázi abecedy X-SAMPA. Pokud jsou dále acoustické subslovní elementy reprezentovány sdílenými skrytými Markovovy modely, případný nedostatek zdrojových dat pro trénováni může být pokryt z jiných jazyků. Dalším krokem byla vlastní realizace multilingválního systému pomocí nástrojové sady KALDI. Použité jazykové modely byly na bázi zredukovaných trigramových modelů získaných z veřejně dostupých zdrojů. První experimenty byly realizovány pro monoligvální systémy pro výše zmíněné jazyky za účelem získání referenční informace o dosažitelné přesnosti. Následné použití sdíleného jazykového modelu napříč jazyky vedlo k určitému snížení přesnosti rozpoznávání, avšak tato byla nadále velmi vysoká. Nejmenší chyba na úrovni slov (WER) se pohybovala mezi 8.55\% a 12.42\% pro angličtinu a španělštinu. Další dosahované výsledky pro zbývající jazyky odpovídaly velikosti a kvalitě dostupných zdrojů pro získání akustických a jazykových modelů v navrženém rozpoznávacím systému.	cze
dc.description.abstract	The main goal of this work was to create the first version of a multilingual speech recognition system for selected four West-European languages. A crucial task of this work was to establish a relationship between subword acoustic units across particular languages which is the core for building of automatic speech recognition (ASR) system for multiple languages. The built multilingual ASR system, up to date, covers the following languages: English, German, Portuguese, and Spanish. Because the phonetic unit representation differed for particular language depending on the database used, the first step was intended to define a general shared phonetic representation based on X-SAMPA. When acoustic phonetic units represented by hidden Markov models (HMMs) are shared, the lack of certain missing training acoustic resources can be then complemented among languages. The following step was to implement the multilingual speech recognition system using KALDI speech recognition toolkit. Language models finally implemented were statistical pruned trigram ones and they were obtained from publicly available resources. The first experiments were carried out across monolingual systems to identify what recognition accuracy could be obtained. Further incorporation of the shared acoustic modeling yielded a reduction in term of accuracy, however, high accuracy results were still obtained. The best word error rates (WER) fluctuate between $8.55\%$ and $12.42\%$. These values correspond to English and Spanish language respectively. Among the results, it was also found that for particular languages, the accuracy strongly depends on the size and quality of available resources for obtaining both acoustic and language models used in designed ASR system.	eng
dc.language.iso	ENG
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	multilingvální rozpoznávání řeči,akustické modelování,GMM-HMM,rozpoznávání spojité řeči s velkým slovníkem,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPA	cze
dc.subject	multilingual speech recognition,acoustic modeling,GMM-HMM,large vocabulary continuous speech recognition,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPA	eng
dc.title	Multilingvální rozpoznávání řeči pro vybrané západoevropské jazyky	cze
dc.title	Multilingual Speech Recognition for Selected West-European Languages	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.date.accepted
dc.contributor.referee	Rajnoha Josef
theses.degree.discipline	Komunikační systémy	cze
theses.degree.grantor	katedra teorie obvodů	cze
theses.degree.programme	Komunikace, multimédia a elektronika	cze

Soubory tohoto záznamu

Název:: F3-DP-2018-Montoya Gomez-Gloria ...
Velikost:: 2.415Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2018-Montoya Gomez-Gloria ...
Velikost:: 3.622Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2018-posudek-Rajnoha_Jos ...
Velikost:: 761.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2018-posudek-Pollak_Petr.pdf
Velikost:: 463.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13131 [212]

Zobrazit minimální záznam