Jazykové modely pro multilingvální rozpoznávání spojité řeči

Valíček Jiří

Language Models for Multilingual Continuous Speech Recognition

Typ dokumentu

diplomová práce
master thesis

Autor

Valíček Jiří

Vedoucí práce

Pollák Petr

Oponent práce

Rajnoha Josef

Studijní obor

Multimediální technika

Studijní program

Komunikace, multimédia a elektronika

Instituce přidělující hodnost

katedra radioelektroniky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se zabývá jazykovým modelováním v multilingválním systému rozpoznávání spojité řeči. Primárním úkolem je vytvoření n-gramových jazykových modelů z volně dostupných textových korpusů a návrh postupu pro vytvoření výslovnostních slovníků se zaměřením na definici výslovností pro neznámá slova. Zadaný úkol je vypracován pro čtyři jazyky: polština, slovenština, ruština a maďarština. Pro každý tento jazyk bylo nalezeno několik veřejně dostupných textových korpusů, ze kterých byly, pomocí balíku SRILM, vytvořeny jazykové modely. Výslovnostní slovníky byly tvořeny třemi nástroji. g2p-sk pro slovenštinu a univerzální BAS G2P a Sequitur G2P. V případě nástroje Sequitur G2P byly navíc natrénovány modely výslovnostních pravidel ze slovníků s ověřenou výslovností. Výstupem této práce je metodika, realizující celý proces zpracování textových korpusů, a její implementace, s možností rozšíření o další jazyky. Vytvořeny byly jazykové modely, výslovnostní slovníky a modely pravidel výslovností. Modely a slovníky jsou testovány v LVCSR systému a na textových korpusech. V rozpoznávání řeči byla dosažena chybovost v rozmezí 13%-41% WER v závislosti na jazyce. Při porovnání nástrojů pro tvorbu slovníku, dosáhl Sequitur G2P lepších výsledků než BAS G2P.

This thesis deals with language modelling for multilingual continuous speech recognition system. The primary objective of this thesis was to create n-gram language models using freely available resources and design a procedure to create pronunciation dictionaries with focus on new words transcription. Given task was performed on four languages: Polish, Slovak, Russian and Hungarian. For each of these languages several free resources of text corpora were found. Language model creation was done using SRILM toolkit. To create pronunciation dictionaries three tools were used: g2p-sk for Slovak language and multilingual BAS G2P and Sequitur G2P. While testing the Sequitur G2P pronunciation models were trained on verified dictionaries. The output of this thesis is method of text corpora processing and implementation of said method. Created were language models, pronunciation dictionaries and pronunciation models. Models and dictionaries are tested in LVCSR system and on text corpora. Depending on the language, obtained results were in range 13%-41% WER. In dictionary comparison Sequitur G2P performed better than BAS G2P.