Model-agnostic methods for explaining local predictions of a black-box classifier

Metody pro vysvětlování lokálních predikcí black-box klasifikátorů

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Cílem lokálních univerzálních vysvětlovacích metod je vysvětlit jednotlivé predikce libovolného modelu strojového učení pouze za pomoci vstupů a odpovídajících výstupů daného modelu. Vysvětlování predikcí složitého modelu strojového učení pomáhá odborníkům vylepšovat daný model a zvyšuje uživatelskou důvěru v predikce modelu. Tato práce zkoumá tři z nejmodernějších lokálních univerzálních vysvětlovacích metod -- LIME, Anchors a SHAP. Zkoumané metody jsou detailně popsány a experimentálně vyhodnoceny s ohledem na věrnost jejich vysvětlení vzhledem k vysvětlovanému modelu. Vyhodnocení je provedeno na různých klasifikátorech natrénovaných na uměle vygenerovaných datech i na reálných datech. Umělá data jsou vygenerována na základě známých závislostí, což umožňuje spočítat optimální vysvětlení a porovnat ho s vysvětleními vygenerovanými vysvětlovacími metodami. Výsledky experimentů ukazují, že SHAP je nejrobustnější vůči vlastnostem modelované funkce z uvažovaných vysvětlovacích metod. LIME i Anchors v určitých situacích neprodukují přesná vysvětlení, nicméně v experimentu s reálnými daty obě metody vyprodukovaly přesná vysvětlení.

Local model-agnostic explanation methods aim to explain a single prediction of an arbitrary machine learning model by studying the model only through its inputs and corresponding outputs. Explaining predictions of a complex machine learning model helps practitioner to debug the model and build user's trust in the predictions. This thesis reviews and describes three of the state-of-the-art local model-agnostic explanation methods -- LIME, Anchors and SHAP. The described methods are evaluated in terms of faithfulness of their explanaions to the model being explained. Evaluation is performed on various classifiers trained on artificially generated datasets as well as a real-world divorce dataset. The artificial datasets are generated based on known dependencies which allows to calculate optimal explanations and compare them to the explanations produced by the explanation methods. The experiments show that SHAP is the most robust out of the considered explanation methods. LIME and Anchors fail to produce faithful explanations in specific cases, however, they both managed to produce faithful explanations in experiment with real-world dataset.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By