Epsilon-soft

Metoda z dziedziny Monte Carlo Methods (RL). Metoda taka sama jak Monte Carlo Exploring Starts (ES), ale zamiast Exploring starts używa epsilon greedy.

Ta metoda zbiega do optimum, tj. znajduję optymalną politykę spośród takich, które są epsilon-soft! Ale metoda ta nie jest optymalna, bo optymalna będzie ta, która nie używa randomizacji.

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Epsilon-soft

Graph View

Backlinks