Automatický přepis záznamů přednášek s využitím nástrojové sady KALDI

Práce popisuje implementaci funkčního rozpoznávače dlouhých nahrávek spojité řeči s použitím nástrojové sady Kaldi a s jazykovým modelem upraveným pro daný tématický okruh. Takový systém má možnost využít množství textových dat vzniklých v průběhu let a aplikovat je při tvorbě přepisů záznamů přednášek, jejichž nahrávání se stalo v poslední době běžnou praxí. Použitá architektura již sice nepředstavuje state-of-the-art přístup, ale oproti dnes upřednostňovaným End-to-End systémům nabízí vysokou konfigurovatelnost a interpretovatelnost parametrů. Systém využívá GMM-HMM systém pro získání dat pro natrénování DNN-HMM rozpoznávače. Jedná se o hybridní systém, využívající TDNN sítě a její faktorizované řetězové struktury. Trénování proběhlo na třech databázích o celkovém rozsahu 85 hodin z nichž jedna obsahovala spontánní řeč. V rámci práce je vytvořeno několik nezbytných podpůrných částí, a to zpracování PDF souboru, segmentace záznamů, tvorba jazykového modelu a generování přepisů v různých formátech. Vytvořené rozhraní je implementováno v jazyce Bash. V části popisující implementaci je dán stručný popis fungování a návod na použití. Následně je ověřen přínos rozšíření jazykového modelu vedoucí na zvýšení přesnosti rozpoznání o 20 % oproti obecnému modelu s nejlepším výsledkem 15,62 % WER. V závěru jsou dosažené výsledky srovnány s výsledky veřejně dostupného modelu Chirp od společnosti Google. Získané přepisy jsou podány v několika formátech a umožňují aplikaci v různých multimediálních prostředích. Na závěr jsou diskutována možná další vylepšení vytvořeného systému.

This thesis describes an implementation of a functional long spontaneous speech recognition application which utilizes the Kaldi toolkit and a domain specific language model. Such an application has the option to exploit a significant amount of data created within several recent years and apply it for the transcription of recordings of lectures, recording of which has recently become a common practice. Although the used architecture no longer represents a state-of-the-art approach, it offers high configurability and interpretability of parameters compared to the End-to-End systems preferred today. The system uses the GMM-HMM system to obtain data for training the DNN-HMM recognizer. It is a hybrid system which makes use of a TDNN network and its factorized chain structure. The training took place on the basis of three databases with a total scope of 85 hours, one of which contained spontaneous speech. Several necessary supporting parts are created within the work, namely PDF file processing, recording segmentation, language model formation and transcription generation in various formats. The created interface is implemented in the Bash language. In the section describing the implementation, a brief description of the operation and instructions for use are given. Subsequently, the benefit of expanding the language model is verified, leading to an increase in recognition accuracy by 20 % compared to the general model with the best result of 15.62 % WER. Finally, the achieved results are compared with the results of the publicly available Chirp model from Google. The obtained transcripts are provided in several formats and allow application in various multimedia environments. Finally, possible further improvements of the created system are discussed.

Keywords

automatické rozpoznání spontánní řeči, GMM-HMM, DNN-HMM, Kaldi, Bash, jazykové modely, SRILM, Automatic Spontaneous Speech Recognition, GMM-HMM, DNN-HMM, Kaldi, Bash, Language Models

Permanent link

http://hdl.handle.net/10467/115926

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Master Theses - 13137

Full item page

Automated Transcription of Lecture Records Using KALDI Toolkit