Kódování vstupů a výstupů pro metody supervizovaného shlukování

Jakub Monhart

Input-Output Representations for Supervised Clustering Methods

Type of document

bakalářská práce
bachelor thesis

Author

Jakub Monhart

Supervisor

Drchal Jan

Opponent

Šír Gustav

Study program

Kybernetika a robotika

Institutions assigning rank

katedra řídicí techniky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

V rámci této práce zkoumáme možná řešení pro problém supervizovaného shlukování se zaměřením na metody založené na neuronových sítích. Naší motivací jsou problémy jako je shrnutí textu podle sémantiky, extrakce tématu z textu a rychlá anotace dat. Cílem modelu řešícího supervizované shlukování je zpracovat množinu obsahující proměnný počet prvků a rozdělit tyto prvky do shluků. Za tímto účelem je model nejdříve trénován pomocí dat u kterých známe správné rozdělení prvků do shluků. V první části zkoumáme přístupy strojového učení ke zpracování dat strukturovaných jako proměnný počet prvků v množině a současné state of the art metody pro řešení supervizovaného shlukování. Uvádíme teorii nezbytnou k definování metod zpracovávajících množiny prvků a podrobně popisujeme dva state of the art modely pro řešení supervizovaného shlukování. Dále jsme navrhli dvě nové metody, z nichž každá používá jiné kódování vstupu a výstupu. Pomocí experimentů na jednom reálném a dvou syntetických datasetech porovnáváme popsané state of the art me- tody s metodami které jsme navrhli. Zaměřujeme se na schopnost zpracovat data se závislostmi mezi prvky uvnitř shluků a na škálovatelnost zkoumaných modelů při rostoucí velikosti vstupu.

In this thesis, we explore solutions to the supervised clustering problem, focusing on neural network-based methods. We are motivated by problems such as semantic text summarization, topic extraction, and fast annotation of data. The goal of a supervised clustering model is to partition a set of a variable number of elements into clusters. This is done by first training the model using labeled data. In the first part, we explore machine learning approaches to processing set-structured data and the current state of the art methods for solving the supervised clustering problem. The theory necessary to define set-processing methods is reviewed, and two state of the art models for solving the supervised clustering problem are described in detail. We further propose two new methods, each using a different representation of the input and output. Using experiments on one real-world and two synthetic datasets, we compare the two state of the art methods with the proposed methods. We explore the ability to deal with intra-cluster data dependencies and the scalability of the examined models to the size of a set of elements to be clustered.