Optimalization of distances for multi-instance clustering
Optimalizace vzdálenosti pro multi-instanční shlukovací problémy
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2020-02-05
Abstract
Klastrová analýza je jedním z typických problémů náležících do skupiny algoritmů učení bez učitele. Jednou z hlavních voleb při návrhu jakéhokoliv klastrovacího algoritmu je výběr správné vzdálenostní funkce. V této práci je představen přístup k výběru vzdálenostní fuknce pomocí strojového učení. Tento přístup staví na multi-instančním učení, přístupu nabízejícím vysoký výpočetní výkon a velkou expresivní sílu pro popis dat s vnitřní strukturou pomocí hierarchických modelů. Tři metody stavěné na multi-instančním učení jsou představeny spolu s předchozími pracemi, na kterých staví. Jedna z metod spadá do skupiny algoritmů učení bez učitele zatímco dvě metody spadají do skupiny algoritmů učení s učitelem. Metody jsou teoreticky popsány a experimentálně vyhodnoceny na veřejně dostupných data- setech pro multi-instanční učení a na korporátním datasetu dat z oblasti sítové bezpečnosti. Výsledky jsou následně zhodnoceny a metody porovnány.
Clustering is a prime example of a problem typically associated with unsupervised learning. One of the key design choices when using any clustering algorithm is to choose the right distance metric. In this work, an approach for using machine learning to learn the metric is introduced. The approach build on multi-instance learning, an approach oering high computational performance and a strong expressive power for describing data with an inherent structure using hierarchical models. Three methods building on multi-instance learning are presented together with the prior art they build upon. One of the methods is unsupervised while two are supervised. The methods are theoretically discussed and experimentally evaluated on publicly available datasets for multi-instance learning, as well as a corporate dataset of network security data. The results are then discussed and the methods compared.
Clustering is a prime example of a problem typically associated with unsupervised learning. One of the key design choices when using any clustering algorithm is to choose the right distance metric. In this work, an approach for using machine learning to learn the metric is introduced. The approach build on multi-instance learning, an approach oering high computational performance and a strong expressive power for describing data with an inherent structure using hierarchical models. Three methods building on multi-instance learning are presented together with the prior art they build upon. One of the methods is unsupervised while two are supervised. The methods are theoretically discussed and experimentally evaluated on publicly available datasets for multi-instance learning, as well as a corporate dataset of network security data. The results are then discussed and the methods compared.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.