Zvyšování rozmanitosti slabých klasifikátorů ve složených klasifikátorech pomocí příznakových grafů
Increasing Weak Classifier Diversity in Ensemble Models by Feature Graphs
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Kunc Vladimír
Vedoucí práce
Kléma Jiří
Oponent práce
Kubalík Jiří
Studijní obor
Informatika a počítačové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Jedním z běžných problémů strojového učení na datech genové exprese je nedostatek vzorků --- tyto datasety mají obvykle několik desítek tisíc atributů ale v nejlepším případě jen několik desítek vzorků, navíc, vzorky získané pomocí technologie microarray obsahují velké množství šumu. Z těchto důvodu modely postavené výhradně z naměřených dat obvykle trpí přeučením. Jednou možnou metodou řešící problém přeučení je použití apriorní znalosti k regularizaci. Tato práce analyzuje metodu network-constrained forest (NCF) navrženou Andělem a Klémou a dále předkládá zobecnění této metody používající jiné typy slabých klasifikátorů. Navržená metode je analyzována z pohledu diverzity a přesnosti na několika datasetech. Navíc, tato práce empiricky testuje teoretickou konvergenci NCF pro zvyšující se délky náhodné procházky použíté pro vzorkování atributů. One of the common problems in machine learning from gene expression data is the scarcity of samples --- these datasets usually have around tens of thousands of features but only several dozens of samples at best. Moreover, samples obtained using microarray technology are often very noisy. Therefore models built solely from measured data often suffer from overfitting. One of possible methods dealing with overfitting is to use prior knowledge for regularization. This work analyzes network-constrained forest (NCF) method proposed by Anděl and Kléma and proposes generalization of this method using other types of weak classifiers. The proposed method is analysed in terms of diversity and accuracy over several datasets. Moreover, this work empirically tests proposed convergence of NCF for increasing length of random walk used for feature sampling.
Kolekce
- Bakalářské práce - 13133 [778]