Data clustering in Hilbert spaces
Shlukování dat v Hilbertových prostorech
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Hledání nelineárních závislostí mezi daty je dlouhodobě studovaným problémem. Za tímto účelem byly vyvinuty jádrové metody, jež převádí problém do Hilbertových prostorů vyšších dimenzí. Tato práce si klade za cíl představit jádrové metody a jejich aplikaci na problém shlukování. Dále práce studuje optimální nastavení parametru pro shlukování s použitím Gaussova jádra. Za tímto účelem bylo zkoumáno 21 souborů dvou-dimenzionálních dat. K řešení problému shlukování se dají využít i heuristické metody, konkrétně metoda náhodného sestupu. Tato metoda je testována na třech různých souborech dat, konkrétně na souborech iris, breast a wine. V rámci její optimalizace byly použity tři různé typy mutací, jež bojují proti problému lokálního minima. Jako součást práce byla vytvořena Python knihovna pro manipulaci s jádry a jádrové shlukování.
Detecting non-linear patterns among data has been a long-lasting problem. Kernel-based methods have been developed to tackle this issue using Hilbert spaces of higher dimension. This work aims to introduce kernel methods and their application on the clustering problem, all while implementing concise Python library to do so. It further researches the optimal value of the parameter for clustering using the Gaussian kernel while examining 21 two-dimensional datasets. The clustering problem in the feature space can be seen as an optimization problem in $\mathbb{Z}^n$, therefore heuristic methods can be used for its solution. The properties of the random descent method are tested using three widely used datasets - iris, breast and wine. To combat the problem of local minima, mutations originating from the field of genetic algorithms are used. As a part of this work, Python library PyKern for manipulating kernels and performing kernel clustering algorithms was created.
Detecting non-linear patterns among data has been a long-lasting problem. Kernel-based methods have been developed to tackle this issue using Hilbert spaces of higher dimension. This work aims to introduce kernel methods and their application on the clustering problem, all while implementing concise Python library to do so. It further researches the optimal value of the parameter for clustering using the Gaussian kernel while examining 21 two-dimensional datasets. The clustering problem in the feature space can be seen as an optimization problem in $\mathbb{Z}^n$, therefore heuristic methods can be used for its solution. The properties of the random descent method are tested using three widely used datasets - iris, breast and wine. To combat the problem of local minima, mutations originating from the field of genetic algorithms are used. As a part of this work, Python library PyKern for manipulating kernels and performing kernel clustering algorithms was created.