Quartz 4

Home

❯

ML

❯

RL

❯

alpha-constant Monte Carlo

alpha-constant Monte Carlo

Sep 23, 20251 min read

Metoda Monte Carlo Methods (RL), którą można użyć do problemów niestacjonarnych. Po każdym epizodzie robiony jest update: V(St​)←V(St​)+α[Gt​−V(St​)] gdzie Gt​ to reward z całego epizodu.

Optymalność

Zobacz ^292c91.

Źródło: Reinforcement Learning An introduction


Graph View

Backlinks

  • Monte Carlo Methods (RL)
  • Temporal Difference Learning

Created with Quartz v4.4.1 © 2025

  • GitHub
  • Discord Community