Optimalizace vzdálenosti pro multi-instanční shlukovací problémy

Klastrová analýza je jedním z typických problémů náležících do skupiny algoritmů učení bez učitele. Jednou z hlavních voleb při návrhu jakéhokoliv klastrovacího algoritmu je výběr správné vzdálenostní funkce. V této práci je představen přístup k výběru vzdálenostní fuknce pomocí strojového učení. Tento přístup staví na multi-instančním učení, přístupu nabízejícím vysoký výpočetní výkon a velkou expresivní sílu pro popis dat s vnitřní strukturou pomocí hierarchických modelů. Tři metody stavěné na multi-instančním učení jsou představeny spolu s předchozími pracemi, na kterých staví. Jedna z metod spadá do skupiny algoritmů učení bez učitele zatímco dvě metody spadají do skupiny algoritmů učení s učitelem. Metody jsou teoreticky popsány a experimentálně vyhodnoceny na veřejně dostupných data- setech pro multi-instanční učení a na korporátním datasetu dat z oblasti sítové bezpečnosti. Výsledky jsou následně zhodnoceny a metody porovnány.

Clustering is a prime example of a problem typically associated with unsupervised learning. One of the key design choices when using any clustering algorithm is to choose the right distance metric. In this work, an approach for using machine learning to learn the metric is introduced. The approach build on multi-instance learning, an approach oering high computational performance and a strong expressive power for describing data with an inherent structure using hierarchical models. Three methods building on multi-instance learning are presented together with the prior art they build upon. One of the methods is unsupervised while two are supervised. The methods are theoretically discussed and experimentally evaluated on publicly available datasets for multi-instance learning, as well as a corporate dataset of network security data. The results are then discussed and the methods compared.

Keywords

strojové učení, multi-instanční učení, shluková analýza, contractive predictive coding, triplet loss, manet loss, neuronové sítě, vícevrstvý perceptron, machine learning, multi-instance learning, clustering, contrastive predictive coding, triplet

Permanent link

https://hdl.handle.net/10467/177309

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Collections

Master Theses - 14101

Full item page

Optimalization of distances for multi-instance clustering