Metoda Monte Carlo Methods (RL), którą można użyć do problemów niestacjonarnych. Po każdym epizodzie robiony jest update: gdzie to reward z całego epizodu.
Optymalność
Zobacz ^292c91.
Metoda Monte Carlo Methods (RL), którą można użyć do problemów niestacjonarnych. Po każdym epizodzie robiony jest update: gdzie to reward z całego epizodu.
Zobacz ^292c91.