Vysvětlitelné klasifikátory malwaru

Ondřej Vereš

Explainable classifiers of malware

Typ dokumentu

diplomová práce
master thesis

Autor

Ondřej Vereš

Vedoucí práce

Šmídl Václav

Oponent práce

Somol Petr

Studijní obor

Kybernetická bezpečnost

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce představuje metodu TreeLIME pro vysvětlování hierarchických víceinstančních modelů strojového učení. Naše metoda natrénuje zjednodušený logistický model pro konkrétní vstupní vzorek. TreeLIME následně vytvoří vysvětlení interpretací tohoto zjednodušeného modelu. Zjistili jsme, že náš původní logistický model nebyl dobře interpretovatelný, protože některé prediktory byly na sobě částečně závislé. Proto jsme vyvinuli novou vrstvenou verzi TreeLIME, která trénuje logistický model pro každou vrstvu hierarchického víceinstančního vzorku zvlášť. Optimalizační proces obou verzí TreeLIME jsme zároveň vizualizovali, aby bylo snadnější ho pochopit a ověřit jeho korektnost. Provedli jsme sérii experimentů a citlivostních studií pro různé hyperparametry metody TreeLIME na CAPEv2 datasetu, který obsahuje tisíce skenů škodlivých souborů ve formátu JSON rozdělených do deseti tříd dle typu malwaru. Výsledky vrstveného TreeLIME se výrazně zlepšily a byly srovnatelné s nejlepšími metodami pro vysvětlování hierarchických víceinstančních modelů v současné době. Pro další zlepšení metody TreeLIME jsme identifikovali problémy s vrstveným přístupem a navrhli další vylepšení ploché verze TreeLIME pro pokračování v této práci.

This thesis introduces a method named TreeLIME to explain hierarchical multiple-instance machine learning models. Our method trains a surrogate logistic regression model for a specific input sample. Afterward, TreeLIME generates an explanation by interpreting the surrogate model. We discovered that the initial Flat TreeLIME implementation suffered from correlations among the surrogate model predictors. Therefore, we developed an improved Layered TreeLIME method, which trains a surrogate model for each hierarchical multiple-instance data sample layer. Furthermore, we visualized the TreeLIME optimization process to make it more understandable and verify that it works correctly. We conducted rigorous experiments and a sensitivity analysis for various hyperparameters of the TreeLIME method on the CAPEv2 dataset, which contains JSON reports of thousands of malicious files divided into ten different malware classes. The performance of the Layered TreeLIME improved dramatically and was comparable to the current state-of-the-art methods of explaining hierarchical multiple-instance models. To improve TreeLIME further, we have identified issues in the Layered TreeLIME approach and suggested additional improvements to the Flat TreeLIME for future work.