Přenosové učení v úlohách sekvenčního rozhodování
Transfer learning in sequential decision making tasks
Type of document
diplomová prácemaster thesis
Author
Eliška Zugarová
Supervisor
Gaj Taťjana
Opponent
Duník Jindřih
Field of study
Matematické inženýrstvíStudy program
Aplikace přírodních vědInstitutions assigning rank
katedra matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Diplomová práce se zabývá dynamickým rozhodovacím problémem řešeným pomocí přenosového učení. Problém je modelován s použitím plně pravděpodobnostniho návrhu, který pomocí pravděpodobnostních funkcí umožňuje vyjádřit rozmanité a komplexní cíle rozhodovače. Navržená metoda přenosového učení využívá plně pravděpodobnostniho návrhu a optimální strategii se učí na základě pozorování a bez znalosti modelu interagujíciho systému. Předávají-li daná pozorování dostatečné množství informací, dosahuje navržená metoda výsledků srovnatelných s výsledky plně pravděpodobnostniho návrhu. Metoda je navíc méně výpočetně náročná. Pro případ, kdy v pozorováních chybí důležité informace, byla navržena jednoduchá technika prozkoumávání. Tato technika přináší přijatelné vylepšení výsledků. This thesis focuses on solving a dynamic decision problem via transfer learning. It is based on the theory of the fully probabilistic design (FPD), which is a framework that models sequential decisionmaking as a closed-loop. It enables to express diverse preferences and goals of the decision-maker in a probabilistic way. The proposed method of transfer learning uses FPD formulation of the problem and learns an optimal decision policy based on observed behavior. Other knowledge of the interacting system or of the preferences that guided the observed decision-making is not avaiable. When the observations contain enough information about the closed-loop, the approach provides comparable results to the FPD while being less computationally complex. In case there in a significant lack of information in the data, a simple explorative strategy is introduced. It allows to overcome the problem of missing knowledge to an acceptable degree.
Collections
- Diplomové práce - 14101 [152]