Optimalization of distances for multi-instance clustering

Optimalizace vzdálenosti pro multi-instanční shlukovací problémy

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2020-02-05

Research Projects

Organizational Units

Journal Issue

Abstract

Klastrová analýza je jedním z typických problémů náležících do skupiny algoritmů učení bez učitele. Jednou z hlavních voleb při návrhu jakéhokoliv klastrovacího algoritmu je výběr správné vzdálenostní funkce. V této práci je představen přístup k výběru vzdálenostní fuknce pomocí strojového učení. Tento přístup staví na multi-instančním učení, přístupu nabízejícím vysoký výpočetní výkon a velkou expresivní sílu pro popis dat s vnitřní strukturou pomocí hierarchických modelů. Tři metody stavěné na multi-instančním učení jsou představeny spolu s předchozími pracemi, na kterých staví. Jedna z metod spadá do skupiny algoritmů učení bez učitele zatímco dvě metody spadají do skupiny algoritmů učení s učitelem. Metody jsou teoreticky popsány a experimentálně vyhodnoceny na veřejně dostupných data- setech pro multi-instanční učení a na korporátním datasetu dat z oblasti sítové bezpečnosti. Výsledky jsou následně zhodnoceny a metody porovnány.

Clustering is a prime example of a problem typically associated with unsupervised learning. One of the key design choices when using any clustering algorithm is to choose the right distance metric. In this work, an approach for using machine learning to learn the metric is introduced. The approach build on multi-instance learning, an approach oering high computational performance and a strong expressive power for describing data with an inherent structure using hierarchical models. Three methods building on multi-instance learning are presented together with the prior art they build upon. One of the methods is unsupervised while two are supervised. The methods are theoretically discussed and experimentally evaluated on publicly available datasets for multi-instance learning, as well as a corporate dataset of network security data. The results are then discussed and the methods compared.

Description

Citation

Underlying research data set URL

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By