ČVUT DSpace
  • Prohledat DSpace
  • English
  • Přihlásit se
  • English
  • English
Zobrazit záznam 
  •   ČVUT DSpace
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra teorie obvodů
  • Diplomové práce - 13131
  • Zobrazit záznam
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra teorie obvodů
  • Diplomové práce - 13131
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Optimalizace akustického modelu a segmentace dlouhých záznamů v systému pro automatický přepis přednášek

Optimization of Acoustic Model and Long-Record Segmentation in an Automated Lecture Transcription System

Typ dokumentu
diplomová práce
master thesis
Autor
Magdaléna Kůtová
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Zpracování signálů
Studijní program
Lékařská elektronika a bioinformatika
Instituce přidělující hodnost
katedra teorie obvodů



Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznam
Abstrakt
Tato diplomová práce se zabývá automatickým rozpoznáváním řeči (ASR) pro dlouhé nahrávky spontánní mluvené češtiny, a to na základě architektury DNN-HMM implementované pomocí nástroje Kaldi. Systém využívá tématicky zaměřený jazykový model upravený pro přednášky z kurzu Zpracování řeči a řetězovou strukturu TDNN. Hlavním cílem práce je zlepšit omezení dřívějšího systému. Mezi navržená vylepšení patří použití překrývajicích se segmentů pro získání většího kontextu a zohlednění neřečových událostí, jako jsou vyplněné pauzy nebo zvuky produkované mluvčím, které jsou typické pro spontánní řeč. Implementovaný systém byl porovnán s dříve dostupným modelem a vykázal mírné zlepšení přesnosti rozpoznávání na rozšířené testovací množině, kde došlo ke snížení hodnoty míry chybovosti slov (WER) přibližně o 0.5% na 16.42%. Systém byl dále testován na přednáškách z kurzu Číslicové zpracování signálů, kde byla naměřena hodnota WER 20.54%. Součástí práce je také analýza dopadu rozšíření trénovací množiny pro akustický model. Výsledky ukazují, že přidání dalších dat nemusí nutně vést ke zlepšení kvality přepisu.
 
This thesis presents an Automatic Speech Recognition (ASR) system for long recordings of spontaneous Czech speech based on a DNN-HMM architecture implemented using the Kaldi toolkit. The system includes a topic-specific language model tailored to lectures from the Speech Processing course and a Time-Delay Neural Network (TDNN) chain structure. The main focus of the work is to improve the limitations of an earlier system. Enhancements include overlapping segments to provide additional contextual information and using non-speech events such as filled pauses and speaker-related noises, typical for spontaneous speech. The implemented system was compared with the previously available model, showing a slight improvement in recognition accuracy on an enlarged test dataset, reducing the Word Error Rate (WER) by approximately 0.5% to 16.42%. Furthermore, the system was evaluated on lectures from the Digital Signal Processing course, where the WER of 20.54% was obtained. Additionally, the thesis investigates the impact of expanding the training data for the acoustic model. The results indicate that adding more data does not necessarily improve transcription quality.
 
URI
http://hdl.handle.net/10467/123104
Zobrazit/otevřít
PLNY_TEXT (1.985Mb)
PRILOHA (19.48Mb)
POSUDEK (154.1Kb)
POSUDEK (70.64Kb)
Kolekce
  • Diplomové práce - 13131 [213]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV
 

 

Užitečné odkazy

ČVUT v PrazeÚstřední knihovna ČVUTO digitální knihovně ČVUTInformační zdrojePodpora studiaPodpora publikování

Procházet

Vše v DSpaceKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit se

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV