Model pro rozpoznání diktovaných čísel pro společnost poskytující interactive voice response (IVR)
Dictated numbers recognition model for an interactive voice response (IVR) company
Type of document
diplomová prácemaster thesis
Author
Martin Nykodem
Supervisor
Kovalenko Alexander
Opponent
Kordík Pavel
Field of study
Znalostní inženýrstvíStudy program
InformatikaInstitutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zaměřuje na problém automatického rozpoznání řeči (ASR). Cílem této práce je vytvořit model strojového učení k rozpoznání čísel v českém jazyce, která byla nadiktována v rámci telefonního hovoru. Systémy ASR se potýkají se specifickými problémy souvisejícími s doménou rozpoznání řeči. Proto, aby byly splněné určité požadavky příznačné českému jazyku, musel být aplikován speciální způsob předzpracování dat a vývoje modelu. Na základě průzkumu populárních state-of-the-art přístupů v oblasti ASR je vyvinut model pro výše uvedenou úlohu. Jsou diskutována specifika dané domény včetně předzpracování dat a ladění modelu. Dále je pro dataset specifické domény představeno rozšíření o dostupné datasety českého jazyka. Nakonec je popsán průběh vývoje a vylepšení objevená během vývoje. Výsledky ukazují, že bylo dosaženo desetinásobného zlepšení správného rozpoznávání nahrávek obsahujících sekvenci diktovaných čísel. Model výrazně překonává současné nejlepší řešení od českých společností zabývajících se rozpoznáváním řeči, stejně jako řešení od společností Google a Microsoft. Kromě toho je dosaženo nejnižšího skóre WER z dostupných nekomerčních modelů pro doménově neomezenou datovou sadu pro český jazyk Common Voice 8. This thesis focuses on the problem of automatic speech recognition (ASR). Namely, the specific task of this work is to create a machine learning model to recognize numbers in the Czech language, dictated in a phone call. ASR systems face specific domain-related problems of speech recognition. Therefore, to meet certain requirements peculiar to the Czech language, a custom approach for the preprocessing and model development has to be applied. Based on the survey of the popular state-of-the-art and trending approaches in the ASR field, the model applicable for the above-mentioned task is developed. Specificity of the domain, including data preprocessing and model fine-tuning, is discussed. Additionally, a specific domain dataset extension using the available Czech language datasets is presented. Finally, the development progress and improvements discovered during the development process are described. The results show that an 10-fold improvement in the correct recognition of recordings containing a sequence of dictated numbers is attained. The model vastly outperforms the current best solution from Czech speech recognition companies, as well as solutions from Google and Microsoft. Additionally, the lowest WER score of the available non-commercial models for the domain-agnostic dataset for the Czech language Common Voice 8 is achieved.
Collections
- Diplomové práce - 18105 [195]