Sum-product-set networks for density learning of tree-structured data
Sum-product-set modely pro učení hustot pravděpodobnosti stromových dat
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Výzkum a škálovatelnost výzkumu v oblasti strojového učení se urychlily přechodem od ručního vytváření příznaků k automatické extrakci příznaků. Použití datového formátu JSON v různých oblastech, jako je kybernetická bezpečnost, fyzika nebo biochemie, motivovalo k automatizovanému zpracování i těchto dat. Již dříve se ukázalo, že stromově strukturovaná data zobecňují koncept datového formátu JSON. Byl však navržen pouze způsob diskriminačního učení takových dat. V této práci navrhujeme síť typu SPSN (Sum-Product-Set Network), generativní model pro stromově strukturovaná data založený na explicitním modelování jejich hustoty. Problémy modelování stromově strukturovaných dat řešíme pomocí teorie náhodných konečných množin. Teorie náhodných konečných množin je kombinována s pravděpodobnostním modelem Sum-Product sítí. Experimentální výsledky poskytují hluboký vhled do silných stránek a omezení SPSN v různých datových doménách a zdůrazňují konkurenceschopnost pravděpodobnostních modelů vůči neuronovým sítím.
The research and scalability of machine learning research have been accelerated by moving from manual feature engineering to automatic feature extraction. The use of JSON data format in various domains such as cybersecurity, physics or biochemistry development motivated the automated processing of such data. Tree-structured data has previously been shown to generalise the concept of the JSON data format. However, only a mode for discriminative learning of such data has been proposed. In this work, we propose a Sum-Product-Set Network (SPSN), a generative model for tree-structured data based on explicit modelling of its density. We address the challenges of modelling tree-structured data by using the theory of random finite sets. Random finite set theory is combined with a tractable probabilistic model of Sum-Product Networks. The experimental results provide in-depth insights into the strengths and limitations of SPSN in different data domains and highlight the competitiveness of tractable probabilistic models against intractable neural networks.
The research and scalability of machine learning research have been accelerated by moving from manual feature engineering to automatic feature extraction. The use of JSON data format in various domains such as cybersecurity, physics or biochemistry development motivated the automated processing of such data. Tree-structured data has previously been shown to generalise the concept of the JSON data format. However, only a mode for discriminative learning of such data has been proposed. In this work, we propose a Sum-Product-Set Network (SPSN), a generative model for tree-structured data based on explicit modelling of its density. We address the challenges of modelling tree-structured data by using the theory of random finite sets. Random finite set theory is combined with a tractable probabilistic model of Sum-Product Networks. The experimental results provide in-depth insights into the strengths and limitations of SPSN in different data domains and highlight the competitiveness of tractable probabilistic models against intractable neural networks.
Description
Keywords
Sum-Product-Set sítě, Stromově strukturovaná data, Pravděpodobnostní učení, Učení hustoty pravděpodobnosti, Klasifikace, Shlukování, Sum-Product sítě, Více instanční učení, Hierarchické více instanční učení, Sum-Product-Set Networks, Tree-structured data, Probabilistic learning, Density learning, Classification, Clustering, Sum-Product Networks, Multiple-instance learning, Hierarchical multiple-instance learning
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.