Zobrazit minimální záznam

End-to-End Speech Synthesis: A Survey and Basic Implementation



dc.contributor.advisorPollák Petr
dc.contributor.authorAneta Drhová
dc.date.accessioned2025-01-29T23:51:48Z
dc.date.available2025-01-29T23:51:48Z
dc.date.issued2025-01-29
dc.identifierKOS-1243608669405
dc.identifier.urihttp://hdl.handle.net/10467/120564
dc.description.abstractSyntéza řeči hraje klíčovou roli v aplikacích, které umožňují lidem komunikovat s technologiemi přirozeným způsobem, například v asistenčních systémech pro osoby se zdravotním postižením nebo v~interaktivních hlasových asistentech. Nejvíce se rozvíjejícím přístupem v současnosti je syntéza řeči metodou End-to-End, která využívá hluboké neuronové sítě k~přímému převodu textu na řeč. Tato práce se zaměřuje na popis a základní implementaci systému pro syntézu řeči metodou E2E. Systém je postaven na architektuře Tacotron 2, která kombinuje predikci mel-spektrogramů z textu a modifikovaný generátor zvuku WaveGlow. Implementace probíhala s využitím otevřených nástrojů a knihoven, přičemž trénování bylo prováděno na anglické databázi LJ Speech o celkovém trvání 24~hodin nahrávek. Bylo natrénováno 5 modelů na 5 různě dlouhých částech dostupné databáze LJ~Speech. Informativní hodnocení kvality syntetizované řeči bylo provedeno za použití metriky DTW (Dynamic Time Warping) na bázi kepstrálních koeficientů a~subjektivního posouzení přirozenosti výstupu. Výsledky potvrzují očekávaný výsledek, že větší množství trénovacích dat přispívá ke zlepšení kvality syntetizovaného hlasu, ačkoli i s menšími soubory dat lze dosáhnout uspokojivých výsledků pro základní aplikace.cze
dc.description.abstractSpeech synthesis plays a key role in applications that allow people to naturally interact with technology, such as assistive systems for people with disabilities or interactive voice assistants. The most prominent approach today is speech synthesis using the End-to-End method, which uses Deep Neural Networks to directly convert text to speech. This thesis focuses on the research and basic implementation of an E2E speech synthesis system. The system is based on the Tacotron 2 architecture, which combines mel-spectrogram prediction from text and a modified WaveGlow audio generator. The training of Tacotron2 model was carried out using open source tools and libraries, and was performed on the English LJ Speech database with a total duration of 24 hours of recordings. Five models were trained on 5 different lengths of the available LJ Speech database. Informative evaluation of the quality of the synthesized speech was performed using the Dynamic Time Warping (DTW) on cepstral coefficients and a an informal listening assessment of the naturalness of the output. The results confirm the expected result that a larger amount of training data contributes to improving the quality of the synthesized voice, although even smaller datasets can achieve satisfactory results for basic applications.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectzpracování řečicze
dc.subjectřečové signálycze
dc.subjectsyntéza řečicze
dc.subjectumělé neuronové sítěcze
dc.subjectend-to-end systémcze
dc.subjectTacotron2cze
dc.subjectSpeech Processingeng
dc.subjectSpeech Signalseng
dc.subjectSpeech Synthesiseng
dc.subjectArtificial Neural Networkseng
dc.subjectEnd-to-End systemeng
dc.subjectTacotron2eng
dc.titleEnd-to-End syntéza řeči: Rešerže a základní implementacecze
dc.titleEnd-to-End Speech Synthesis: A Survey and Basic Implementationeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeRajnoha Josef
theses.degree.disciplineAudiovizuální technika a zpracování signálůcze
theses.degree.grantorkatedra radioelektronikycze
theses.degree.programmeElektronika a komunikacecze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam