Scalability of Predictive Modeling Algorithms

Škálovatelnost prediktivních modelů

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2017-02-14

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce má dva hlavní cíle - (1) paralelizovat FAKE GAME integrací do open source frameworku H2O, zaměřeného na strojové učení, a (2) hodnocení anytime vlastností algoritmů strojového učení a vlivu optimalizace hyper-parametrů na tyto algoritmy. Tyto cíle jsem realizoval integrací FAKE GAME do H2O. Za účelem vyhodnocení anytime vlastností jsem implementoval nový nástroj nazvaný Benchmarker. Vyhodnocení anytime vlastností ukázalo, že pro některé problémy modely z FAKE GAME překonají modely z H2O, jak v přesnosti, tak i ve výkonu. Na druhou stranu vyhodnocení vlivu optimalizace hyper-parametrů ukázalo poměrně malý úspěch při optimalizaci algoritmů strojového učení z H2O. Domnívám se, že zanedbatelné zvýšení výkonnosti, a pro některé z optimalizovaných modelů dokonce i nižší výkon než u výchozí konfigurace, je způsobeno automatickým laděním některých hyper-parametrů, které se provádí ve výchozím nastavení H2O.

This thesis has two main goals - (1) parallelize FAKE GAME by integration into, an open source machine learning framework, H2O, and (2) evaluation of anytime properties of machine learning algorithms and influence of hyper-parameter optimization on them. To meet these objectives, I have integrated FAKE GAME into H2O and, in order to evaluate anytime properties, I have implemented, a new tool, called Benchmarker. The evaluation of anytime properties shows that for some problems FAKE GAME models outperform state-of-the-art models from H2O, in both, accuracy and performance. Moreover, the evaluation of hyper-parameter optimization show little success, when optimizing H2O machine learning algorithms. I hypothesise that the negligible performance improvement, and for some optimized models even lower performance than with default configuration, is caused by hyper-parameter automatic tuning, which is done by default in H2O for some hyper-parameters.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By