Tento výzkumný úkol se zabývá optimálním rozhodováním z pohledu volby preferencí pro plně pravděpodobnostní návrh. Tento návrh zavádí tzv. ideální distribuci chování, která přiřazuje vysoké hodnoty preferovanému chování a malé hodnoty pravděpodobnosti nežádoucímu chování. Za použití Kullback-Leiblerovy divergence na reálnou distribuci chování a na ideální distribuci chování se následně hledá optimální rozhodovací politika. Ta v každém kroce uzavřené smyčky vybere tu akci, díky které se systém s nejvyšší pravděpodobností posune do preferovaného stavu. Tento výzkum se zabývá i preferencemi více stavů a akcí a také rozpornými preferencemi. Je zde obsažen návod k nalezení optimální distribuce chování pro danou volbu preferencí stavu a akce a nebo množin stavů a akcí, z nichž se konstruuje ideální distribuce. Vlastnosti výsledného algoritmu optimalizace jsou ilustrovány simulačními experimenty.