Porovnání adversariálních učících technik pro detekci malwaru
A Comparison of Adversarial Learning Techniques for Malware Detection
Type of document
diplomová prácemaster thesis
Author
Pavla Louthánová
Supervisor
Jureček Martin
Opponent
Kozák Matouš
Field of study
Počítačová bezpečnostStudy program
InformatikaInstitutions assigning rank
katedra informační bezpečnostiRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Malware je dnes jednou z nejvýznamnějších bezpečnostních hrozeb. Pro účinnou ochranu před malwarem je zásadní jeho včasná detekce. Strojové učení se ukázalo jako užitečný nástroj pro automatickou detekci malwaru. Výzkum však ukázal, že modely strojového učení jsou zranitelné vůči adversariálním útokům. Tato práce se zabývá adversariálními učícími technikami v oblasti detekce malwaru. Cílem bylo aplikovat některé existující metody pro generování vzorků adversariálního malwaru, otestovat jejich účinnost proti vybraným detektorům malwaru, porovnat dosaženou míru úniku a praktickou použitelnost. Práce začíná úvodem do adversariálního strojového učení, následuje popis portable executable formátu souborů a přehled publikací, které se zaměřují na vytváření adversariálních vzorků malwaru. Dále jsou popsány techniky použité k vytvoření vzorků malwaru pro experimentální vyhodnocení. Nakonec jsou popsány provedené experimenty, zahrnující sledování času potřebného k vytvoření vzorků, změn velikosti vzorku po použití generátoru, testování účinnosti proti antivirovým programům, kombinování aplikace více generátorů na vzorek a jejich vyhodnocení. Pro účely experimentů bylo vybráno pět generátorů: Partial DOS, Full DOS, GAMMA padding, GAMMA section-injection a Gym-malware. Výsledky ukázaly, že použití optimalizovaných modifikací, na dříve detekovaný malware, může vést k nesprávnému vyhodnocení klasifikátorem jako benigního souboru. Bylo také zjištěno, že vygenerované vzorky škodlivého softwaru lze úspěšně použít proti jiným detekčním modelům, než které byly použity k jejich vygenerování, a že použitím kombinací generátorů lze vytvořit nové vzorky, které se vyhnou detekci. Experimenty ukazují, že největší potenciál v praxi má generátor Gym-malware, který využívá přístup zpětnovazebního učení. Tento generátor dosáhl průměrné doby generování vzorku 5,73 sekundy a nejvyšší míry úniku 67 %. Při použití v kombinaci se sebou samým, se míra úniku zlepšila na 78 %. Malware is one of the most significant security threats today. Early detection is important for effective malware protection. Machine learning has proven to be a useful tool for automated malware detection. However, research has shown that machine learning models are vulnerable to adversarial attacks. This thesis discusses adversarial learning techniques in malware detection. The aim is to apply some existing methods for generating adversarial malware samples, test their effectiveness against selected malware detectors, and compare the evasion rate achieved and their practical applicability. The thesis begins with an introduction to adversarial machine learning, followed by a description of the portable executable file format and a review of publications that focus on generating adversarial malware samples. The techniques used to generate malware samples for experimental evaluation are then presented. Finally, the experiments performed are described, including observation of the time required to generate samples, changes in sample size after using the generator, testing effectiveness against antivirus programs, combining the use of multiple generators to generate samples, and evaluation of the results. Five generators were selected for the experiments: Partial DOS, Full DOS, GAMMA padding, GAMMA section-injection and Gym-malware. The results showed that applying optimised modifications to previously detected malware can lead to incorrect classification of the file as benign. It was also found that generated malware samples can be successfully used against detection models other than those used to generate them, and that using combinations of generators can create new samples that evade detection. Experiments show that the Gym-malware generator, which uses a reinforcement learning approach, has the greatest practical potential. This generator achieved an average sample generation time of 5.73 seconds and the highest evasion rate of 67%. When used in combination with itself, the evasion rate improved to 78%.
Collections
- Diplomové práce - 18106 [113]