Monte Carlo Exploring Starts (ES)

Algorytm typu Monte Carlo Methods (RL)

Zasada działania: przy każdym epizodzie robimy exploring starts. Po każdym epizodzie aktualizujemy funkcję q i od razu politykę. To zbiega (chociaż nie jest formalnie udowodnione).

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Monte Carlo Exploring Starts (ES)

Graph View

Backlinks