Binary Data Balancing Methods
Binary Data Balancing Methods
Typ dokumentu
diplomová prácemaster thesis
Autor
Michaela Kučerová
Vedoucí práce
Friedjungová Magda
Oponent práce
Vašata Daniel
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Spousta tabulkových datasetů reálného světa je nevyvážená, což má negativní dopad na kvalitu výstupů modelů, jež používají tato nevyvážená data. Existuje řada přístupů, jak se s tímto problémem vypořádat, přičemž jedním z nich je balancování datasetu. Tato magisterská práce obsahuje přehled existujících balančních metod, jako je například SMOTE, pro nevyvážené datasety problému binární klasifikace. V práci jsou nastíněny tradiční metody i techniky založené na generativních metodách. Kromě toho je představena nová metoda vzorkování nazvaná LIT-GAN. Tato metoda kombinuje techniku interpolace s generativními modely. Vybraných deset metod vzorkování a tato nová metoda LIT-GAN jsou experimentálně porovnány pomocí klasifikace na často používaných datasetech se šesti evaluačními metrikami. Many real-world tabular datasets are imbalanced, which has a negative effect on the quality of the models applied to those data. More ways exist to deal with this problem, and one of them is re-balancing the dataset. This master's thesis presents a review of existing oversampling methods, such as SMOTE, for imbalanced datasets of binary classification problem. Traditional methods, as well as generative-based techniques, are outlined in this work. Moreover, a novel oversampling method called LIT-GAN is presented. LIT-GAN combines an interpolation technique with generative models. Selected ten oversampling methods and the novel method are compared experimentally using classification on frequently used datasets with six different evaluation metrics.
Kolekce
- Diplomové práce - 18105 [164]