Classifiers Explainable in the Latent Space
Klasifikátory vysvětlitelné v latentním prostoru
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Tato práce se zabývá technikami vysvětlitelné umělé inteligence (XAI) pro detekci finančních podvodů, se zaměřením na interpretovatelnost modelů, které využívají latentní reprezentace. Ačkoli modely strojového učení dokážou účinně detekovat jemné vzory v komplexních transakčních datech, jejich netransparentnost zejména v naučeném latentním prostoru představuje překážku pro praktické využití i splnění regulatorních požadavků.
Studie zkoumá dva hlavní přístupy k vysvětlování, založené na latentním prostoru. První přístup kombinuje lokální náhradní modely s výběrem sousedství v latentním prostoru, aby generoval detailní, na instanci zaměřená vysvětlení. Jako referenční metoda pro srovnání interpretovatelnosti je využito přiřazování důležitosti vstupních atributů pomocí metody SHAP. Druhý přístup adaptuje metodu založenou na prototypech, kde jsou predikce vysvětlovány na základě podobnosti s naučenými latentními prototypy, které jsou následně přiřazeny k reprezentativním trénovacím příkladům pro zajištění interpretace.
Experimenty na rozsáhlém datovém souboru finančních transakcí ukazují specifické výhody i omezení obou přístupů. Modely s latentním sousedstvím dokáží zachytit jemné lokální chování, avšak jejich účinnost výrazně závisí na struktuře latentního prostoru a kvalitě zvolených sousedů. Naproti tomu vysvětlení založená na prototypech poskytují konzistentní a srozumitelná odůvodnění, i když mohou postrádat větší hloubku bez dodatečné sémantické strukturalizace. Výsledky poukazují na potenciál interpretačních technik v latentním prostoru a naznačují možnosti dalšího zlepšení prostřednictvím cílené strukturalizace latentního prostoru a zapojení odborníků do procesu vysvětlování.
This work investigates explainable artificial intelligence (XAI) techniques for financial fraud detection, with a focus on interpretability in models that rely on latent representations. While machine learning models can effectively detect subtle patterns in complex transaction data, their lack of transparency particularly in learned latent spaces poses challenges for practical and regulatory use. The study explores two primary explanation strategies grounded in latent space. The first combines local surrogate models with latent neighborhood selection to generate fine-grained, instance-specific explanations. SHAP-based feature attributions are employed as a baseline to benchmark the interpretability of this approach. The second strategy adapts a prototype-based method, where predictions are explained through similarity to learned latent prototypes, which are later anchored to representative training examples for interpretability. Experiments on a large-scale transaction dataset highlight distinct strengths and limitations of each method. While latent neighborhood models can capture nuanced local behavior, their performance depends heavily on the structure of the latent space and the quality of selected neighbors. Prototype-based explanations, by contrast, offer consistent and self-contained justifications, though they may lack explanatory depth without further semantic structuring. The findings underscore the potential of latent-space interpretability techniques and point toward future improvements through refined latent structuring and expert-in-the-loop guidance.
This work investigates explainable artificial intelligence (XAI) techniques for financial fraud detection, with a focus on interpretability in models that rely on latent representations. While machine learning models can effectively detect subtle patterns in complex transaction data, their lack of transparency particularly in learned latent spaces poses challenges for practical and regulatory use. The study explores two primary explanation strategies grounded in latent space. The first combines local surrogate models with latent neighborhood selection to generate fine-grained, instance-specific explanations. SHAP-based feature attributions are employed as a baseline to benchmark the interpretability of this approach. The second strategy adapts a prototype-based method, where predictions are explained through similarity to learned latent prototypes, which are later anchored to representative training examples for interpretability. Experiments on a large-scale transaction dataset highlight distinct strengths and limitations of each method. While latent neighborhood models can capture nuanced local behavior, their performance depends heavily on the structure of the latent space and the quality of selected neighbors. Prototype-based explanations, by contrast, offer consistent and self-contained justifications, though they may lack explanatory depth without further semantic structuring. The findings underscore the potential of latent-space interpretability techniques and point toward future improvements through refined latent structuring and expert-in-the-loop guidance.
Description
Keywords
Detekce anomálií, Detekce podvodů, Interpretovatelnost, ProtoPNet, Triplet loss, Vysvětlitelná umělá inteligence, Finanční podvody, Latentní prostor, Autoenkodér, SHAP, Lasso, Anomaly detection, Fraud detection, Interpretability, ProtoPNet, Triplet loss, Explainable AI, Financial fraud, Latent space, Autoencoder, SHAP, Lasso