Vývoj systému automatického rozpoznávání řeči pro české mluvené slovo

Richard Werner

Developing an automatic speech recognition system based on Czech spoken language

dc.contributor.advisor	Kovalenko Alexander
dc.contributor.author	Richard Werner
dc.date.accessioned	2020-06-14T10:41:36Z
dc.date.available	2020-06-14T10:41:36Z
dc.date.issued	2020-06-13
dc.identifier	KOS-987296869505
dc.identifier.uri	http://hdl.handle.net/10467/88012
dc.description.abstract	Tato práce se zabývá automatickým rozpoznáváním řeči (ASR) za použití rekurentních neuronových sítí (RNN). Cílem je analyzovat state-of-the-art v těchto vědních odvětvích a najít vhodný český otevřený dataset společně s RNN modelem. Dalším krokem je natrénovat vybraný model na zvoleném datasetu a najít druhý zdroj hlasových dat, ke kterému bude možné následně vytvořit anotace. Výstupem práce bude natrénovaný model, open-source dataset a systém dovolující snadné předzpracování dat a další rozšiřování datasetů. Zvoleným datasetem jsou připravená hlasová data z Poslanecké sněmovny a použitým modelem je DeepSpeech open-source projekt. Druhým zdrojem hlasových dat jsou zbylé nahrávky z Poslanecké sněmovny, dostupné z jejich webových stránek. Součástí procesu přípravy těchto dat bylo použití detektoru hlasové aktivity (VAD), jehož výstup posloužil jako reference při segmentaci audio nahrávek. Natrénovaný model dosáhl úspěšnosti 12.66 \% WER (chybovost v rámci slov) a 4.63 \% CER (chybovost v rámci znaků), což byly dostatečně nízké hodnoty k vytvoření anotací nových dat. Nový dataset po předzpracování obsahoval přes 580000 hlasových nahrávek s proměnnou délkou zhruba od 1 do 70 sekund. Posledním krokem bylo vytvoření anotací. Projekt je navržen jako Docker image s předpřipravenými nástroji ke zpracování datasetů a jejich použití k učení RNN. Výstupem je tedy natrénovaný model RNN, otevřený dataset s anotacemi a připravené Docker prostředí ke zpracování dat.	cze
dc.description.abstract	This thesis deals with automatic speech recognition (ASR) using recurrent neural networks (RNN). The goal is to analyze the state-of-the-art in those fields and propose a suitable Czech open-source voice dataset and an RNN model. Next, train the model on the dataset and use to trained model to transcribe another appropriate source of speech data. The output is a trained speech-to-text model, a new open-source dataset, and a system allowing accessible data preprocessing and further extension of datasets. The dataset of choice is the Czech Parliament meetings (CPM) transcribed recordings, and the model used is the DeepSpeech open-source project. The secondary source of speech data is the rest of the recording gathered from the CPM website. Part of the preprocessing relied on the usage of a voice activity detection (VAD) model, which was used as a reference for the audio segmentation. The trained model achieved 12.66 \% WER (Word Error Rate) and 4.63 \% CER (Character Error Rate), which were sufficient values for the final dataset transcription. After preprocessing, the final dataset consisted of over 580000 speech utterances of ranging length roughly from 1 up to 70 seconds. The only remaining step was to create labels. The project is designed as a Docker image with prepared custom tools and other means to preprocess datasets and feed them to an RNN. Therefore, the output is a trained RNN model, an open-source dataset consisting of labeled recordings and a ready-to-use Docker image with a toolkit for data preprocessing.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	automatické rozpoznávání řeči	cze
dc.subject	rekurentní neurové sítě	cze
dc.subject	LSTM	cze
dc.subject	DeepSpeech	cze
dc.subject	Tensorflow	cze
dc.subject	vlnková transformace	cze
dc.subject	WPD	cze
dc.subject	automatic speech recognition	eng
dc.subject	recurrent neural networks	eng
dc.subject	long short-term memory networks	eng
dc.subject	DeepSpeech	eng
dc.subject	Tensorflow	eng
dc.subject	wavelet transform	eng
dc.subject	wavelet packet decomposition	eng
dc.title	Vývoj systému automatického rozpoznávání řeči pro české mluvené slovo	cze
dc.title	Developing an automatic speech recognition system based on Czech spoken language	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Smítková Janků Ladislava
theses.degree.discipline	Znalostní inženýrství	cze
theses.degree.grantor	katedra aplikované matematiky	cze
theses.degree.programme	Informatika	cze

Soubory tohoto záznamu

Název:: F8-DP-2020-Werner-Richard-thes ...
Velikost:: 3.059Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-DP-2020-posudek-Smitkova_Ja ...
Velikost:: 139.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-DP-2020-posudek-Kovalenko_A ...
Velikost:: 135.8Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 18105 [203]

Zobrazit minimální záznam