Automatický přepis záznamů přednášek s využitím nástrojové sady KALDI
Automated Transcription of Lecture Records Using KALDI Toolkit
Typ dokumentu
diplomová prácemaster thesis
Autor
Josef Hůla
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Audiovizuální technika a zpracování signálůStudijní program
Elektronika a komunikaceInstituce přidělující hodnost
katedra radioelektronikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Práce popisuje implementaci funkčního rozpoznávače dlouhých nahrávek spojité řeči s použitím nástrojové sady Kaldi a s jazykovým modelem upraveným pro daný tématický okruh. Takový systém má možnost využít množství textových dat vzniklých v průběhu let a aplikovat je při tvorbě přepisů záznamů přednášek, jejichž nahrávání se stalo v poslední době běžnou praxí. Použitá architektura již sice nepředstavuje state-of-the-art přístup, ale oproti dnes upřednostňovaným End-to-End systémům nabízí vysokou konfigurovatelnost a interpretovatelnost parametrů. Systém využívá GMM-HMM systém pro získání dat pro natrénování DNN-HMM rozpoznávače. Jedná se o hybridní systém, využívající TDNN sítě a její faktorizované řetězové struktury. Trénování proběhlo na třech databázích o celkovém rozsahu 85 hodin z nichž jedna obsahovala spontánní řeč. V rámci práce je vytvořeno několik nezbytných podpůrných částí, a to zpracování PDF souboru, segmentace záznamů, tvorba jazykového modelu a generování přepisů v různých formátech. Vytvořené rozhraní je implementováno v jazyce Bash. V části popisující implementaci je dán stručný popis fungování a návod na použití. Následně je ověřen přínos rozšíření jazykového modelu vedoucí na zvýšení přesnosti rozpoznání o 20 % oproti obecnému modelu s nejlepším výsledkem 15,62 % WER. V závěru jsou dosažené výsledky srovnány s výsledky veřejně dostupného modelu Chirp od společnosti Google. Získané přepisy jsou podány v několika formátech a umožňují aplikaci v různých multimediálních prostředích. Na závěr jsou diskutována možná další vylepšení vytvořeného systému. This thesis describes an implementation of a functional long spontaneous speech recognition application which utilizes the Kaldi toolkit and a domain specific language model. Such an application has the option to exploit a significant amount of data created within several recent years and apply it for the transcription of recordings of lectures, recording of which has recently become a common practice. Although the used architecture no longer represents a state-of-the-art approach, it offers high configurability and interpretability of parameters compared to the End-to-End systems preferred today. The system uses the GMM-HMM system to obtain data for training the DNN-HMM recognizer. It is a hybrid system which makes use of a TDNN network and its factorized chain structure. The training took place on the basis of three databases with a total scope of 85 hours, one of which contained spontaneous speech. Several necessary supporting parts are created within the work, namely PDF file processing, recording segmentation, language model formation and transcription generation in various formats. The created interface is implemented in the Bash language. In the section describing the implementation, a brief description of the operation and instructions for use are given. Subsequently, the benefit of expanding the language model is verified, leading to an increase in recognition accuracy by 20 % compared to the general model with the best result of 15.62 % WER. Finally, the achieved results are compared with the results of the publicly available Chirp model from Google. The obtained transcripts are provided in several formats and allow application in various multimedia environments. Finally, possible further improvements of the created system are discussed.
Kolekce
- Diplomové práce - 13137 [250]