Approximace přesnosti modelu v optimalizaci hyper-parametru

Jůzlová Markéta

Model Performance Approximation in Hyper-parameter Optimization

Typ dokumentu

diplomová práce
master thesis

Autor

Jůzlová Markéta

Vedoucí práce

Borovička Tomáš

Oponent práce

Vašata Daniel

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Cílem automatické optimalizace hyper-parametrů je najít nastavení hyper-parameterů učícího algorithm bez lidské pomoci. Protože k vyhodnocení jednoho nastavení je potřeba natrénovat daný model, optimalizační metody které se snaží redukovat počet vyhodnocení jsou třeba. Užitečná technika jsou takzvané náhradní modely, které aproximují přesnost modelu s danou konfigurací. Tato práce zkoumá některé postupy optimalizace hyper-parameterů. Mezi popsané metody patří dvě tradiční methody: mřížková optimalizace a náhodná optimalizace, a dvě nejpokročilejší metody: sekvenční optimalizace založená na náhradním modelu (Bayesovská optimalizace) a Hyperband. Dále je popsáno několik náhradních modelů, které mohou být použity ke zlepšení optimalizace. Efektivita optimalizace a přesnost náhradních modelů je porovnána na dvou datasetech s různým stupněm obtížnosti a algoritmu dopředných umělých neuronových sítí. Výsledky ukazují, že Hyperband dosahuje nejlepších výsledků na obouch datasetech. Analýza výsledků také potvrzuje, že náhradní modely směřují hledání do slibných oblastí a tím urychlují optimalizaci.

Automatic hyper-parameter optimization aims to tune hyper-parameters of machine learning algorithms without human effort. Due to necessity to learn a model to evaluate a configuration, optimization methods that avoid excessive amount of evaluations are desired for the task. A useful technique is to employ a surrogate model which approximates performance of the trained model with given configuration. This thesis reviews some of the approaches that are being used for the hyper-parameter optimization. The described methods include two traditional methods: grid search and random search as a baseline, and two state-of-the-art techniques: sequential model-based optimization (Bayesian optimization) and Hyperband. Several surrogate models that can be used to improve the optimization are described. The performance of the methods and the surrogate models is compared using two datasets of different complexity and a feed-forward artificial neural network as the machine learning algorithm. On both tasks, Hyperband outperforms the other methods. The analysis also confirms that the surrogate models positively bias the search to promising regions and, thus, speed up the optimization.