Interpretability of machine learning-based results of malware detection using a set of rules

Interpretovatelnost výsledků detekce malware založených na strojovém učení pomocí sady pravidel

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Metody strojového učení se prokázaly jako užitečný nástroj v řadě aplikací. Antivirové společnosti našly jejich využití i pro rychlou a spolehlivou detekci malwaru, poskytující jejich uživatelům bezpečnější prostředí před každodenními hrozbami. Metody strojového učení, jako jsou například hluboké neuronové sítě, jsou však často považovány za black boxy, jelikož důvody jejich rozhodnutí mohou být často nejasné. Jejich intepretovatelnost je důležitá a pomáhá pochopit potenciálně chybná rozhodnutí. Tato práce se zabývá algoritmy pro tvorbu pravidel a zkoumá jejich potenciál v rámci interpretace výsledků metod strojového učení. V práci bylo využito dvou veřejně dostupných datasetů, obsahujících atributy PE souborů, a na míru navržených implementací algoritmů pro tvorbu pravidel. Výsledky ukázaly, že algoritmus RIPPER je v tomto úkolu převážně úspěšný; vysokou přesnost vykazoval i při zachování kompaktních sad pravidel, což dělá z algoritmů pro tvorbu pravidel užitečnou alternativu metody založené na signaturách.

Machine learning methods have been quite successful in a variety of applications. Antivirus companies use them for quick and reliable malware detection, providing their users with a safer environment from ceaseless daily threats. However, machine learning methods such as deep neural networks are often considered black boxes as the reasoning behind their decisions may often be unclear. Their interpretability is important and helps understand potential errorful decisions. This thesis studies rule-learning algorithms and explores their potential to interpret the outcomes of machine learning algorithms. Two publicly available datasets with Portable Executable file attributes and tailor-made implementations of rule-learning algorithms were used throughout the work. Results showed that algorithm RIPPER is mostly successful at this task; it achieved high accuracies while maintaining compact sets of rules, making rule-learning algorithms a useful alternative to signature-based methods.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By