Adversarialní útoky na klasifikátory textu
Adversarial attacks on text classifiers
Typ dokumentu
diplomová prácemaster thesis
Autor
David Herel
Vedoucí práce
Mikolov Tomáš
Oponent práce
Rehák Martin
Studijní obor
Kybernetická bezpečnostStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
V dnešní době se velká část mezilidské komunikace odehrává na sociálních sítích nebo diskusních fórech. Vzniká tak obrovské množství textových dat, která je často nutné automaticky kontrolovat, klasifikovat a filtrovat tak, aby bylo možné identifikovat škodlivé kategorie, jako jsou projevy nenávisti, fake news nebo spam. To realizují automatické klasifikátory. Klasifikátory však lze oklamat adversariálním útokem, kdy je text mírně upraven tak, že již není automaticky klasifikován jako například nenávistný projev, ale je stále považován za projev nenávisti z pohledu člověka. V této diplomové práci jsem tyto útoky důkladně studoval a zjistil jsem, že mnohé z nich trpí špatnou kvalitou a často nezachovávají sémantiku věty. Na základě svého výzkumu jsem identifikoval, že problém spočívá v metrice podobnosti, která používá Universal-Sentence-Encoder (USE). K vyřešení problému navrhuji nový přístup nazvaný Semantics-Preserving-Encoder (SPE), který nahrazuje USE v metrice podobnosti. Díky supervizovanému učení našeho přístupu bychom měli lépe zachytit sémantiku. To se skutečně prokázalo a metrika podobnosti použivajíci naše SPE dává velmi dobré výsledky, a to na několika datasetech. Nakonec navrhuji nový adversariální útok, který používá tuto metriku a modifikuje věty na úrovni znaků i slov. Tento útok produkuje vysoce kvalitní adversariální příklady a je také mnohem rychlejší než stávající útoky. Nowadays, some of the most common means of communication are through social networks or discussion forums. This produces an enormous amount of text data, which often needs to be automatically checked, classified and filtered to identify malicious categories such as hate speech, fake news or spam. This is handled by automatic classifiers. However, the classifiers can be fooled by an adversarial attack, in which the text is slightly modified in a way that it is no longer auto-classified as, for example, hate speech but is still considered hate speech to the human eye. In this diploma thesis, I have studied these attacks extensively and discovered that many of them suffer from a poor quality and frequently do not preserve the semantics of a sentence. Based on my research, the problem lies in the similarity metric, which uses Universal-Sentence-Encoder (USE). To overcome this, I propose a new approach called Semantics-Preserving-Encoder (SPE), which replaces USE in the similarity metric. Due to the supervised learning of our approach, we should capture the semantics better. This is proven valid, and the similarity metric using our SPE produces very good results on several datasets. Finally, I propose a new adversarial attack, which uses the new metric and modifies sentences on both character and word level. This attack produces high-quality adversarial examples and is also much faster than existing state-of-the-art attacks.
Kolekce
- Diplomové práce - 13136 [902]