DNN-based Deepfake Speech Detection
Detekce podvržené řeči na bázi DNN
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-25
Abstract
Tato práce se zabývá detekcí podvržené řeči v českém jazyce s využitím neuronové
sítě ResNet a jednotřídní klasifikace pomocí OC Softmax. Teoretická část představuje
problematiku syntetické řeči, zejména pak její možné zneužití, a současné přístupy
k detekci tzv. podvržené řeči. Praktická část popisuje návrh a realizaci systému, včetně
vytvoření českého datasetu obsahujícího přirozené i syntetické promluvy. Popsány
jsou použité vstupní příznaky, architektura sítě a další úpravy. Funkčnost systému
je ověřena experimentálně, včetně návrhu nové upravené klasifikační funkce pro hodnocení
kvality syntetické řeči. Dosažené výsledky ukazují, že kombinace ResNet a modifiko-
vaného OC Softmaxu účinně detekuje podvrženou řeč i v náročných podmínkách a
generalizuje na neznámé systémy i akustické prostředí.
This thesis focuses on the detection of spoofed speech in the Czech language using a ResNet-based neural network and one-class classification with OC Softmax. The theoretical part introduces the state-of-the-art of synthetic speech generation, its potential misuse, and current detection approaches of so called spoofed speech. The practical part presents the design and implementation of the detection system, including the creation of a Czech dataset containing both natural and synthetic utterances. It describes the input features, network architecture, and additional modifications. The systems functionality is experimentally verified, including the proposal of a new modified scoring function for evaluating the quality of synthetic speech. Obtained results show that the combination of ResNet and modified OC Softmax effectively detects spoofed speech and generalizes well to unknown systems and acoustic conditions.
This thesis focuses on the detection of spoofed speech in the Czech language using a ResNet-based neural network and one-class classification with OC Softmax. The theoretical part introduces the state-of-the-art of synthetic speech generation, its potential misuse, and current detection approaches of so called spoofed speech. The practical part presents the design and implementation of the detection system, including the creation of a Czech dataset containing both natural and synthetic utterances. It describes the input features, network architecture, and additional modifications. The systems functionality is experimentally verified, including the proposal of a new modified scoring function for evaluating the quality of synthetic speech. Obtained results show that the combination of ResNet and modified OC Softmax effectively detects spoofed speech and generalizes well to unknown systems and acoustic conditions.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.