Binary Data Balancing Methods
Binary Data Balancing Methods
Type of document
diplomová prácemaster thesis
Author
Michaela Kučerová
Supervisor
Friedjungová Magda
Opponent
Vašata Daniel
Field of study
Znalostní inženýrstvíStudy program
InformatikaInstitutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Spousta tabulkových datasetů reálného světa je nevyvážená, což má negativní dopad na kvalitu výstupů modelů, jež používají tato nevyvážená data. Existuje řada přístupů, jak se s tímto problémem vypořádat, přičemž jedním z nich je balancování datasetu. Tato magisterská práce obsahuje přehled existujících balančních metod, jako je například SMOTE, pro nevyvážené datasety problému binární klasifikace. V práci jsou nastíněny tradiční metody i techniky založené na generativních metodách. Kromě toho je představena nová metoda vzorkování nazvaná LIT-GAN. Tato metoda kombinuje techniku interpolace s generativními modely. Vybraných deset metod vzorkování a tato nová metoda LIT-GAN jsou experimentálně porovnány pomocí klasifikace na často používaných datasetech se šesti evaluačními metrikami. Many real-world tabular datasets are imbalanced, which has a negative effect on the quality of the models applied to those data. More ways exist to deal with this problem, and one of them is re-balancing the dataset. This master's thesis presents a review of existing oversampling methods, such as SMOTE, for imbalanced datasets of binary classification problem. Traditional methods, as well as generative-based techniques, are outlined in this work. Moreover, a novel oversampling method called LIT-GAN is presented. LIT-GAN combines an interpolation technique with generative models. Selected ten oversampling methods and the novel method are compared experimentally using classification on frequently used datasets with six different evaluation metrics.
Collections
- Diplomové práce - 18105 [194]