Multilingvální rozpoznávání řeči pro vybrané západoevropské jazyky
Multilingual Speech Recognition for Selected West-European Languages
dc.contributor.advisor | Pollák Petr | |
dc.contributor.author | Montoya Gómez Gloria María | |
dc.date.accessioned | 2018-06-07T10:27:41Z | |
dc.date.available | 2018-06-07T10:27:41Z | |
dc.date.issued | 2018-06-07 | |
dc.identifier | KOS-782061658805 | |
dc.identifier.uri | http://hdl.handle.net/10467/76287 | |
dc.description.abstract | Hlavním cílem předložené práce bylo vytvoření první verze multilingválního rozpoznávače řeči pro vybrané 4 západoevropské jazyky. Klíčovým úkolem této práce bylo definovat vztahy mezi subslovními akustickými elementy napříč jednotlivými jazyky při tvorbě automatického rozpoznávače řeči pro více jazyků. Vytvořený multilingvální systém pokrývá aktuálně následující jazyky: angličtinu, němčinu, portugalštinu a španělštinu. Jelikož dostupná fonetická reprezentace hlásek pro jednotlivé jazyky byla různá podle použitých zdrojových dat, prvním krokem této práce bylo její sjednocení a vytvoření sdílené fonetické reprezentace na bázi abecedy X-SAMPA. Pokud jsou dále acoustické subslovní elementy reprezentovány sdílenými skrytými Markovovy modely, případný nedostatek zdrojových dat pro trénováni může být pokryt z jiných jazyků. Dalším krokem byla vlastní realizace multilingválního systému pomocí nástrojové sady KALDI. Použité jazykové modely byly na bázi zredukovaných trigramových modelů získaných z veřejně dostupých zdrojů. První experimenty byly realizovány pro monoligvální systémy pro výše zmíněné jazyky za účelem získání referenční informace o dosažitelné přesnosti. Následné použití sdíleného jazykového modelu napříč jazyky vedlo k určitému snížení přesnosti rozpoznávání, avšak tato byla nadále velmi vysoká. Nejmenší chyba na úrovni slov (WER) se pohybovala mezi 8.55\% a 12.42\% pro angličtinu a španělštinu. Další dosahované výsledky pro zbývající jazyky odpovídaly velikosti a kvalitě dostupných zdrojů pro získání akustických a jazykových modelů v navrženém rozpoznávacím systému. | cze |
dc.description.abstract | The main goal of this work was to create the first version of a multilingual speech recognition system for selected four West-European languages. A crucial task of this work was to establish a relationship between subword acoustic units across particular languages which is the core for building of automatic speech recognition (ASR) system for multiple languages. The built multilingual ASR system, up to date, covers the following languages: English, German, Portuguese, and Spanish. Because the phonetic unit representation differed for particular language depending on the database used, the first step was intended to define a general shared phonetic representation based on X-SAMPA. When acoustic phonetic units represented by hidden Markov models (HMMs) are shared, the lack of certain missing training acoustic resources can be then complemented among languages. The following step was to implement the multilingual speech recognition system using KALDI speech recognition toolkit. Language models finally implemented were statistical pruned trigram ones and they were obtained from publicly available resources. The first experiments were carried out across monolingual systems to identify what recognition accuracy could be obtained. Further incorporation of the shared acoustic modeling yielded a reduction in term of accuracy, however, high accuracy results were still obtained. The best word error rates (WER) fluctuate between $8.55\%$ and $12.42\%$. These values correspond to English and Spanish language respectively. Among the results, it was also found that for particular languages, the accuracy strongly depends on the size and quality of available resources for obtaining both acoustic and language models used in designed ASR system. | eng |
dc.language.iso | ENG | |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | multilingvální rozpoznávání řeči,akustické modelování,GMM-HMM,rozpoznávání spojité řeči s velkým slovníkem,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPA | cze |
dc.subject | multilingual speech recognition,acoustic modeling,GMM-HMM,large vocabulary continuous speech recognition,LVCSR,KALDI,GlobalPhone,Wall Street Journal,X-SAMPA,IPA | eng |
dc.title | Multilingvální rozpoznávání řeči pro vybrané západoevropské jazyky | cze |
dc.title | Multilingual Speech Recognition for Selected West-European Languages | eng |
dc.type | diplomová práce | cze |
dc.type | master thesis | eng |
dc.date.accepted | ||
dc.contributor.referee | Rajnoha Josef | |
theses.degree.discipline | Komunikační systémy | cze |
theses.degree.grantor | katedra teorie obvodů | cze |
theses.degree.programme | Komunikace, multimédia a elektronika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Diplomové práce - 13131 [183]