Shlukování dat v Hilbertových prostorech
Data clustering in Hilbert spaces
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Diana Varšíková
Vedoucí práce
Kukal Jaromír
Oponent práce
Tran Quang Van
Studijní program
Aplikované matematicko-stochastické metodyInstituce přidělující hodnost
katedra matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Hledání nelineárních závislostí mezi daty je dlouhodobě studovaným problémem. Za tímto účelem byly vyvinuty jádrové metody, jež převádí problém do Hilbertových prostorů vyšších dimenzí. Tato práce si klade za cíl představit jádrové metody a jejich aplikaci na problém shlukování. Dále práce studuje optimální nastavení parametru pro shlukování s použitím Gaussova jádra. Za tímto účelem bylo zkoumáno 21 souborů dvou-dimenzionálních dat. K řešení problému shlukování se dají využít i heuristické metody, konkrétně metoda náhodného sestupu. Tato metoda je testována na třech různých souborech dat, konkrétně na souborech iris, breast a wine. V rámci její optimalizace byly použity tři různé typy mutací, jež bojují proti problému lokálního minima. Jako součást práce byla vytvořena Python knihovna pro manipulaci s jádry a jádrové shlukování. Detecting non-linear patterns among data has been a long-lasting problem. Kernel-based methods have been developed to tackle this issue using Hilbert spaces of higher dimension. This work aims to introduce kernel methods and their application on the clustering problem, all while implementing concise Python library to do so. It further researches the optimal value of the parameter for clustering using the Gaussian kernel while examining 21 two-dimensional datasets. The clustering problem in the feature space can be seen as an optimization problem in $\mathbb{Z}^n$, therefore heuristic methods can be used for its solution. The properties of the random descent method are tested using three widely used datasets - iris, breast and wine. To combat the problem of local minima, mutations originating from the field of genetic algorithms are used. As a part of this work, Python library PyKern for manipulating kernels and performing kernel clustering algorithms was created.
Kolekce
- Bakalářské práce - 14101 [278]