Machine learning for financial crime detection
Strojové učení pro detekci finančních trestných činů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Tato práce se zabývá návrhem modelu pro detekci pokusů o finanční podvody za pomoci strojového učení. Cílem práce je vybrat a vyhodnotit základní model a po vyhodnocení jeho přesnosti jej upravit a rozšířit. Účelem úprav základního modelu je zvýšení přesnosti modelu a eliminace případů, kdy model označí běžné chování za podvnodné. Na základě rešerše existujících a používaných řešení je vybrán rozhodovací strom jako algoritmus pro základní model. Poté je provedena rešerše možných rozšíření tohoto algoritmu. Vybrané algoritmy a rozšíření, jako je zavedení cost-sensitivity pro rozhodovací stromy nebo shlukování rozhodovacích stromů pomocí metody AdaCost, jsou následně realizovány pomocí knihoven jazyka Python. Vybrané algoritmy jsou trénovány a testovány na simulovaných datech finančních transakcí. Výsledky experimentální části práce ukazují, že vylepšené modely jsou úspěšnější v porovnání se základním modelem. Aplikování cost-sensitivity vedlo k nalezení vyváženého kompromisu mezi eliminací počtu falešných obvinění a odhalením větší části podvodů. Prototyp algoritmu AdaCost také dosáhl lepších výsledků v porovnání se základním modelem. Přínosem této práce je vyhodnocení navržených a realizovaných úprav pro rozhodovací stromy, které mohou být zužitkovány při návrhu systémů pro detekci finančních podvodů.
This work focuses on designing a machine learning model for financial crime detection. The goal of this work is to select a baseline model and apply it to the financial dataset. After evaluating it, propose extensions and improvements to it with an aim to improve its performance and reduce the number of activities falsely classified as fraudulent. Based on the survey of existing solutions, decision tree algorithm was selected as the baseline model. Afterwards a study of possible improvements and extensions to this algorithm is carried out. Proposed improvements, such as introducing cost-sensitivity and cost-sensitive ensemble called AdaCost, are applied and evaluated using the Python programming language. The experiments are carried out using simulated money transactions. The results of the experimental part show that the improvements applied to the baseline model were successful. The cost-sensitivity helped to find a model with a good balance between eliminating the false accusations and detecting a majority of frauds. The prototype of the AdaCost algorithm also showed better results when compared to the baseline model. The usefulness of this work comes from the evaluation of proposed improvements to decision trees, that can be utilized while designing systems for financial fraud detection.
This work focuses on designing a machine learning model for financial crime detection. The goal of this work is to select a baseline model and apply it to the financial dataset. After evaluating it, propose extensions and improvements to it with an aim to improve its performance and reduce the number of activities falsely classified as fraudulent. Based on the survey of existing solutions, decision tree algorithm was selected as the baseline model. Afterwards a study of possible improvements and extensions to this algorithm is carried out. Proposed improvements, such as introducing cost-sensitivity and cost-sensitive ensemble called AdaCost, are applied and evaluated using the Python programming language. The experiments are carried out using simulated money transactions. The results of the experimental part show that the improvements applied to the baseline model were successful. The cost-sensitivity helped to find a model with a good balance between eliminating the false accusations and detecting a majority of frauds. The prototype of the AdaCost algorithm also showed better results when compared to the baseline model. The usefulness of this work comes from the evaluation of proposed improvements to decision trees, that can be utilized while designing systems for financial fraud detection.
Description
Keywords
klasifikační algoritmy, detekce finančních podvodů, rozhodovací stromy, vylepšení rozhodovacích stromů, boosting, AdaCost, detekce praní špinavých peněz, classification algorithms, financial fraud detection, decision tree, improvements to decision trees, boosting, AdaCost, money laundering detection
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.