End-to-End syntéza řeči: Rešerže a základní implementace
End-to-End Speech Synthesis: A Survey and Basic Implementation
Typ dokumentu
diplomová prácemaster thesis
Autor
Aneta Drhová
Vedoucí práce
Pollák Petr
Oponent práce
Rajnoha Josef
Studijní obor
Audiovizuální technika a zpracování signálůStudijní program
Elektronika a komunikaceInstituce přidělující hodnost
katedra radioelektronikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Syntéza řeči hraje klíčovou roli v aplikacích, které umožňují lidem komunikovat s technologiemi přirozeným způsobem, například v asistenčních systémech pro osoby se zdravotním postižením nebo v~interaktivních hlasových asistentech. Nejvíce se rozvíjejícím přístupem v současnosti je syntéza řeči metodou End-to-End, která využívá hluboké neuronové sítě k~přímému převodu textu na řeč. Tato práce se zaměřuje na popis a základní implementaci systému pro syntézu řeči metodou E2E. Systém je postaven na architektuře Tacotron 2, která kombinuje predikci mel-spektrogramů z textu a modifikovaný generátor zvuku WaveGlow. Implementace probíhala s využitím otevřených nástrojů a knihoven, přičemž trénování bylo prováděno na anglické databázi LJ Speech o celkovém trvání 24~hodin nahrávek. Bylo natrénováno 5 modelů na 5 různě dlouhých částech dostupné databáze LJ~Speech. Informativní hodnocení kvality syntetizované řeči bylo provedeno za použití metriky DTW (Dynamic Time Warping) na bázi kepstrálních koeficientů a~subjektivního posouzení přirozenosti výstupu. Výsledky potvrzují očekávaný výsledek, že větší množství trénovacích dat přispívá ke zlepšení kvality syntetizovaného hlasu, ačkoli i s menšími soubory dat lze dosáhnout uspokojivých výsledků pro základní aplikace. Speech synthesis plays a key role in applications that allow people to naturally interact with technology, such as assistive systems for people with disabilities or interactive voice assistants. The most prominent approach today is speech synthesis using the End-to-End method, which uses Deep Neural Networks to directly convert text to speech. This thesis focuses on the research and basic implementation of an E2E speech synthesis system. The system is based on the Tacotron 2 architecture, which combines mel-spectrogram prediction from text and a modified WaveGlow audio generator. The training of Tacotron2 model was carried out using open source tools and libraries, and was performed on the English LJ Speech database with a total duration of 24 hours of recordings. Five models were trained on 5 different lengths of the available LJ Speech database. Informative evaluation of the quality of the synthesized speech was performed using the Dynamic Time Warping (DTW) on cepstral coefficients and a an informal listening assessment of the naturalness of the output. The results confirm the expected result that a larger amount of training data contributes to improving the quality of the synthesized voice, although even smaller datasets can achieve satisfactory results for basic applications.
Kolekce
- Diplomové práce - 13137 [258]