Přenosové učení v úlohách sekvenčního rozhodování

Eliška Zugarová

Transfer learning in sequential decision making tasks

Type of document

diplomová práce
master thesis

Author

Eliška Zugarová

Supervisor

Gaj Taťjana

Opponent

Duník Jindřih

Field of study

Matematické inženýrství

Study program

Aplikace přírodních věd

Institutions assigning rank

katedra matematiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Diplomová práce se zabývá dynamickým rozhodovacím problémem řešeným pomocí přenosového učení. Problém je modelován s použitím plně pravděpodobnostniho návrhu, který pomocí pravděpodobnostních funkcí umožňuje vyjádřit rozmanité a komplexní cíle rozhodovače. Navržená metoda přenosového učení využívá plně pravděpodobnostniho návrhu a optimální strategii se učí na základě pozorování a bez znalosti modelu interagujíciho systému. Předávají-li daná pozorování dostatečné množství informací, dosahuje navržená metoda výsledků srovnatelných s výsledky plně pravděpodobnostniho návrhu. Metoda je navíc méně výpočetně náročná. Pro případ, kdy v pozorováních chybí důležité informace, byla navržena jednoduchá technika prozkoumávání. Tato technika přináší přijatelné vylepšení výsledků.

This thesis focuses on solving a dynamic decision problem via transfer learning. It is based on the theory of the fully probabilistic design (FPD), which is a framework that models sequential decisionmaking as a closed-loop. It enables to express diverse preferences and goals of the decision-maker in a probabilistic way. The proposed method of transfer learning uses FPD formulation of the problem and learns an optimal decision policy based on observed behavior. Other knowledge of the interacting system or of the preferences that guided the observed decision-making is not avaiable. When the observations contain enough information about the closed-loop, the approach provides comparable results to the FPD while being less computationally complex. In case there in a significant lack of information in the data, a simple explorative strategy is introduced. It allows to overcome the problem of missing knowledge to an acceptable degree.