ČVUT DSpace
  • Prohledat DSpace
  • English
  • Přihlásit se
  • English
  • English
Zobrazit záznam 
  •   ČVUT DSpace
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra teorie obvodů
  • Diplomové práce - 13131
  • Zobrazit záznam
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra teorie obvodů
  • Diplomové práce - 13131
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Multilingvální rozpoznávání řeči pro vybrané západoevropské jazyky

Multilingual Speech Recognition for Selected West-European Languages

Typ dokumentu
diplomová práce
master thesis
Autor
Montoya Gómez Gloria María
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Komunikační systémy
Studijní program
Komunikace, multimédia a elektronika
Instituce přidělující hodnost
katedra teorie obvodů



Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznam
Abstrakt
Hlavním cílem předložené práce bylo vytvoření první verze multilingválního rozpoznávače řeči pro vybrané 4 západoevropské jazyky. Klíčovým úkolem této práce bylo definovat vztahy mezi subslovními akustickými elementy napříč jednotlivými jazyky při tvorbě automatického rozpoznávače řeči pro více jazyků. Vytvořený multilingvální systém pokrývá aktuálně následující jazyky: angličtinu, němčinu, portugalštinu a španělštinu. Jelikož dostupná fonetická reprezentace hlásek pro jednotlivé jazyky byla různá podle použitých zdrojových dat, prvním krokem této práce bylo její sjednocení a vytvoření sdílené fonetické reprezentace na bázi abecedy X-SAMPA. Pokud jsou dále acoustické subslovní elementy reprezentovány sdílenými skrytými Markovovy modely, případný nedostatek zdrojových dat pro trénováni může být pokryt z jiných jazyků. Dalším krokem byla vlastní realizace multilingválního systému pomocí nástrojové sady KALDI. Použité jazykové modely byly na bázi zredukovaných trigramových modelů získaných z veřejně dostupých zdrojů. První experimenty byly realizovány pro monoligvální systémy pro výše zmíněné jazyky za účelem získání referenční informace o dosažitelné přesnosti. Následné použití sdíleného jazykového modelu napříč jazyky vedlo k určitému snížení přesnosti rozpoznávání, avšak tato byla nadále velmi vysoká. Nejmenší chyba na úrovni slov (WER) se pohybovala mezi 8.55\% a 12.42\% pro angličtinu a španělštinu. Další dosahované výsledky pro zbývající jazyky odpovídaly velikosti a kvalitě dostupných zdrojů pro získání akustických a jazykových modelů v navrženém rozpoznávacím systému.
 
The main goal of this work was to create the first version of a multilingual speech recognition system for selected four West-European languages. A crucial task of this work was to establish a relationship between subword acoustic units across particular languages which is the core for building of automatic speech recognition (ASR) system for multiple languages. The built multilingual ASR system, up to date, covers the following languages: English, German, Portuguese, and Spanish. Because the phonetic unit representation differed for particular language depending on the database used, the first step was intended to define a general shared phonetic representation based on X-SAMPA. When acoustic phonetic units represented by hidden Markov models (HMMs) are shared, the lack of certain missing training acoustic resources can be then complemented among languages. The following step was to implement the multilingual speech recognition system using KALDI speech recognition toolkit. Language models finally implemented were statistical pruned trigram ones and they were obtained from publicly available resources. The first experiments were carried out across monolingual systems to identify what recognition accuracy could be obtained. Further incorporation of the shared acoustic modeling yielded a reduction in term of accuracy, however, high accuracy results were still obtained. The best word error rates (WER) fluctuate between $8.55\%$ and $12.42\%$. These values correspond to English and Spanish language respectively. Among the results, it was also found that for particular languages, the accuracy strongly depends on the size and quality of available resources for obtaining both acoustic and language models used in designed ASR system.
 
URI
http://hdl.handle.net/10467/76287
Zobrazit/otevřít
PLNY_TEXT (2.415Mb)
PRILOHA (3.622Mb)
POSUDEK (761.5Kb)
POSUDEK (463.5Kb)
Kolekce
  • Diplomové práce - 13131 [212]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV
 

 

Užitečné odkazy

ČVUT v PrazeÚstřední knihovna ČVUTO digitální knihovně ČVUTInformační zdrojePodpora studiaPodpora publikování

Procházet

Vše v DSpaceKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit se

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV