Quartz 4

Home

❯

ML

❯

RL

❯

Epsilon-soft

Epsilon-soft

Sep 23, 20251 min read

Metoda z dziedziny Monte Carlo Methods (RL). Metoda taka sama jak Monte Carlo Exploring Starts (ES), ale zamiast Exploring starts używa epsilon greedy.

Ta metoda zbiega do optimum, tj. znajduję optymalną politykę spośród takich, które są epsilon-soft! Ale metoda ta nie jest optymalna, bo optymalna będzie ta, która nie używa randomizacji.

Źródło: Reinforcement Learning An introduction


Graph View

Backlinks

  • Monte Carlo Methods (RL)

Created with Quartz v4.4.1 © 2025

  • GitHub
  • Discord Community