alpha-constant Monte Carlo

Metoda Monte Carlo Methods (RL), którą można użyć do problemów niestacjonarnych. Po każdym epizodzie robiony jest update: $V (S_{t}) \leftarrow V (S_{t}) + α [G_{t} - V (S_{t})]$ gdzie $G_{t}$ to reward z całego epizodu.

Optymalność

Zobacz ^292c91.

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

alpha-constant Monte Carlo

Optymalność

Graph View

Backlinks