ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Vysvětlitelné klasifikátory malwaru

Explainable classifiers of malware

Type of document
diplomová práce
master thesis
Author
Ondřej Vereš
Supervisor
Šmídl Václav
Opponent
Somol Petr
Field of study
Kybernetická bezpečnost
Study program
Otevřená informatika
Institutions assigning rank
katedra počítačů



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Tato práce představuje metodu TreeLIME pro vysvětlování hierarchických víceinstančních modelů strojového učení. Naše metoda natrénuje zjednodušený logistický model pro konkrétní vstupní vzorek. TreeLIME následně vytvoří vysvětlení interpretací tohoto zjednodušeného modelu. Zjistili jsme, že náš původní logistický model nebyl dobře interpretovatelný, protože některé prediktory byly na sobě částečně závislé. Proto jsme vyvinuli novou vrstvenou verzi TreeLIME, která trénuje logistický model pro každou vrstvu hierarchického víceinstančního vzorku zvlášť. Optimalizační proces obou verzí TreeLIME jsme zároveň vizualizovali, aby bylo snadnější ho pochopit a ověřit jeho korektnost. Provedli jsme sérii experimentů a citlivostních studií pro různé hyperparametry metody TreeLIME na CAPEv2 datasetu, který obsahuje tisíce skenů škodlivých souborů ve formátu JSON rozdělených do deseti tříd dle typu malwaru. Výsledky vrstveného TreeLIME se výrazně zlepšily a byly srovnatelné s nejlepšími metodami pro vysvětlování hierarchických víceinstančních modelů v současné době. Pro další zlepšení metody TreeLIME jsme identifikovali problémy s vrstveným přístupem a navrhli další vylepšení ploché verze TreeLIME pro pokračování v této práci.
 
This thesis introduces a method named TreeLIME to explain hierarchical multiple-instance machine learning models. Our method trains a surrogate logistic regression model for a specific input sample. Afterward, TreeLIME generates an explanation by interpreting the surrogate model. We discovered that the initial Flat TreeLIME implementation suffered from correlations among the surrogate model predictors. Therefore, we developed an improved Layered TreeLIME method, which trains a surrogate model for each hierarchical multiple-instance data sample layer. Furthermore, we visualized the TreeLIME optimization process to make it more understandable and verify that it works correctly. We conducted rigorous experiments and a sensitivity analysis for various hyperparameters of the TreeLIME method on the CAPEv2 dataset, which contains JSON reports of thousands of malicious files divided into ten different malware classes. The performance of the Layered TreeLIME improved dramatically and was comparable to the current state-of-the-art methods of explaining hierarchical multiple-instance models. To improve TreeLIME further, we have identified issues in the Layered TreeLIME approach and suggested additional improvements to the Flat TreeLIME for future work.
 
URI
http://hdl.handle.net/10467/115760
View/Open
PLNY_TEXT (3.301Mb)
POSUDEK (101.8Kb)
PLNY_TEXT (3.301Mb)
POSUDEK (101.2Kb)
Collections
  • Diplomové práce - 13136 [966]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV