Interpretability of machine learning-based results of malware detection using a set of rules
Interpretovatelnost výsledků detekce malware založených na strojovém učení pomocí sady pravidel
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Metody strojového učení se prokázaly jako užitečný nástroj v řadě aplikací. Antivirové společnosti našly jejich využití i pro rychlou a spolehlivou detekci malwaru, poskytující jejich uživatelům bezpečnější prostředí před každodenními hrozbami. Metody strojového učení, jako jsou například hluboké neuronové sítě, jsou však často považovány za black boxy, jelikož důvody jejich rozhodnutí mohou být často nejasné. Jejich intepretovatelnost je důležitá a pomáhá pochopit potenciálně chybná rozhodnutí. Tato práce se zabývá algoritmy pro tvorbu pravidel a zkoumá jejich potenciál v rámci interpretace výsledků metod strojového učení. V práci bylo využito dvou veřejně dostupných datasetů, obsahujících atributy PE souborů, a na míru navržených implementací algoritmů pro tvorbu pravidel. Výsledky ukázaly, že algoritmus RIPPER je v tomto úkolu převážně úspěšný; vysokou přesnost vykazoval i při zachování kompaktních sad pravidel, což dělá z algoritmů pro tvorbu pravidel užitečnou alternativu metody založené na signaturách.
Machine learning methods have been quite successful in a variety of applications. Antivirus companies use them for quick and reliable malware detection, providing their users with a safer environment from ceaseless daily threats. However, machine learning methods such as deep neural networks are often considered black boxes as the reasoning behind their decisions may often be unclear. Their interpretability is important and helps understand potential errorful decisions. This thesis studies rule-learning algorithms and explores their potential to interpret the outcomes of machine learning algorithms. Two publicly available datasets with Portable Executable file attributes and tailor-made implementations of rule-learning algorithms were used throughout the work. Results showed that algorithm RIPPER is mostly successful at this task; it achieved high accuracies while maintaining compact sets of rules, making rule-learning algorithms a useful alternative to signature-based methods.
Machine learning methods have been quite successful in a variety of applications. Antivirus companies use them for quick and reliable malware detection, providing their users with a safer environment from ceaseless daily threats. However, machine learning methods such as deep neural networks are often considered black boxes as the reasoning behind their decisions may often be unclear. Their interpretability is important and helps understand potential errorful decisions. This thesis studies rule-learning algorithms and explores their potential to interpret the outcomes of machine learning algorithms. Two publicly available datasets with Portable Executable file attributes and tailor-made implementations of rule-learning algorithms were used throughout the work. Results showed that algorithm RIPPER is mostly successful at this task; it achieved high accuracies while maintaining compact sets of rules, making rule-learning algorithms a useful alternative to signature-based methods.