Machine learning for financial crime detection

Strojové učení pro detekci finančních trestných činů

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce se zabývá návrhem modelu pro detekci pokusů o finanční podvody za pomoci strojového učení. Cílem práce je vybrat a vyhodnotit základní model a po vyhodnocení jeho přesnosti jej upravit a rozšířit. Účelem úprav základního modelu je zvýšení přesnosti modelu a eliminace případů, kdy model označí běžné chování za podvnodné. Na základě rešerše existujících a používaných řešení je vybrán rozhodovací strom jako algoritmus pro základní model. Poté je provedena rešerše možných rozšíření tohoto algoritmu. Vybrané algoritmy a rozšíření, jako je zavedení cost-sensitivity pro rozhodovací stromy nebo shlukování rozhodovacích stromů pomocí metody AdaCost, jsou následně realizovány pomocí knihoven jazyka Python. Vybrané algoritmy jsou trénovány a testovány na simulovaných datech finančních transakcí. Výsledky experimentální části práce ukazují, že vylepšené modely jsou úspěšnější v porovnání se základním modelem. Aplikování cost-sensitivity vedlo k nalezení vyváženého kompromisu mezi eliminací počtu falešných obvinění a odhalením větší části podvodů. Prototyp algoritmu AdaCost také dosáhl lepších výsledků v porovnání se základním modelem. Přínosem této práce je vyhodnocení navržených a realizovaných úprav pro rozhodovací stromy, které mohou být zužitkovány při návrhu systémů pro detekci finančních podvodů.

This work focuses on designing a machine learning model for financial crime detection. The goal of this work is to select a baseline model and apply it to the financial dataset. After evaluating it, propose extensions and improvements to it with an aim to improve its performance and reduce the number of activities falsely classified as fraudulent. Based on the survey of existing solutions, decision tree algorithm was selected as the baseline model. Afterwards a study of possible improvements and extensions to this algorithm is carried out. Proposed improvements, such as introducing cost-sensitivity and cost-sensitive ensemble called AdaCost, are applied and evaluated using the Python programming language. The experiments are carried out using simulated money transactions. The results of the experimental part show that the improvements applied to the baseline model were successful. The cost-sensitivity helped to find a model with a good balance between eliminating the false accusations and detecting a majority of frauds. The prototype of the AdaCost algorithm also showed better results when compared to the baseline model. The usefulness of this work comes from the evaluation of proposed improvements to decision trees, that can be utilized while designing systems for financial fraud detection.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By