Data clustering in Hilbert spaces

Shlukování dat v Hilbertových prostorech

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Hledání nelineárních závislostí mezi daty je dlouhodobě studovaným problémem. Za tímto účelem byly vyvinuty jádrové metody, jež převádí problém do Hilbertových prostorů vyšších dimenzí. Tato práce si klade za cíl představit jádrové metody a jejich aplikaci na problém shlukování. Dále práce studuje optimální nastavení parametru pro shlukování s použitím Gaussova jádra. Za tímto účelem bylo zkoumáno 21 souborů dvou-dimenzionálních dat. K řešení problému shlukování se dají využít i heuristické metody, konkrétně metoda náhodného sestupu. Tato metoda je testována na třech různých souborech dat, konkrétně na souborech iris, breast a wine. V rámci její optimalizace byly použity tři různé typy mutací, jež bojují proti problému lokálního minima. Jako součást práce byla vytvořena Python knihovna pro manipulaci s jádry a jádrové shlukování.

Detecting non-linear patterns among data has been a long-lasting problem. Kernel-based methods have been developed to tackle this issue using Hilbert spaces of higher dimension. This work aims to introduce kernel methods and their application on the clustering problem, all while implementing concise Python library to do so. It further researches the optimal value of the parameter for clustering using the Gaussian kernel while examining 21 two-dimensional datasets. The clustering problem in the feature space can be seen as an optimization problem in $\mathbb{Z}^n$, therefore heuristic methods can be used for its solution. The properties of the random descent method are tested using three widely used datasets - iris, breast and wine. To combat the problem of local minima, mutations originating from the field of genetic algorithms are used. As a part of this work, Python library PyKern for manipulating kernels and performing kernel clustering algorithms was created.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By