Aktivní semi-supervizované shlukování
Active Semi-supervised Clustering
Typ dokumentu
diplomová prácemaster thesis
Autor
Švehla Jakub
Vedoucí práce
Borovička Tomáš
Oponent práce
Klouda Karel
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Shlukování dat je velice náročný problém, protože v mnoha případech existuje mnoho možných způsobů rozdělení daného datasetu. Shlukování je proto výrazně subjektivní a závislé na daném problému. Aktivní semi-supervisované shlukovací metody aktivně získávají znalost o daném datasetu tak, aby docílily co nejlepšího shlukování pro daný problém. V této práci analyzujeme několik aktivních semi-supervizovaných shlukovacích metod s důrazem na metody, které využívají informace o omezeních dvojic bodů. Dále analyzujeme tři metody pro aktivní učení těchto omezení. Se všemi metodami byly provedeny experimenty na několika různých datasetech. Výsledky experimentů ukazují, že aktivní semi-supervizované metody výrazně zlepšují kvalitu shlukování oproti běžným shlukovacím metodám. Nicméně, žádná ze zkoumaných metod není lepší než ostatní metody na všech datasetech. V této práci navrhujeme další směry pro vylepšení zkoumaných metod. Clustering is a challenging problem since there usually exist multiple possible clusterings. This makes it strongly problem dependent and subjective. Active semi-supervised clustering methods are designed to actively ask for background knowledge in order to provide the best clustering for a given problem. This thesis reviews several state of the art semi-supervised clustering methods with emphasis on methods utilizing pairwise constraints and three schemes for active learning of pairwise constraints. Experiments are conducted to empirically evaluate all reviewed methods on various data sets. Results of the experiments show that active semi-supervised clustering significantly outperforms unsupervised clustering in terms of agreement with a reference clustering. However, none of the methods is superior to the other reviewed methods on all data sets. In the thesis, further directions for extending the current methods are proposed.
Kolekce
- Diplomové práce - 18105 [203]