Policy evaluation

Policy evaluation w reinforcement learningu oznacza tylko tyle co wyliczenie $v_{π}$ mając daną politykę $π$ oraz dokładny model środowiska (czyli to samo założeniu co w Dynamic programming (RL)).

Czasami nazywany jest prediction problem.

Iterative policy evaluation (algorytm)

Zakładając, że znamy dokładnie dynamikę środowiska (czyli znamy prawdopodobieństwa przejścia do stanu po akcji) i mamy daną politykę $π$ (czyli znamy prawdopodobieństwa wyboru akcji w stanie) to możemy iteracyjnie budować kolejne Value function $v_{0}, v_{1}, v_{2}, ...$ (zacznając od losowej Value function) w prosty sposób, tj. $v_{k + 1} (s) = \sum_{s^{'}} p (r, s^{'} ∣ s, a) (r + γ v_{k} (s^{'}))$ Czyli po prostu Value function dla akcji $s$ w kolejnej iteracji to wyliczenie jej z jej “sąsiadów”. Ciąg otrzymanych Value function jest zbieżny gdy $k \to \infty$ .

Algorytm nazywany jest czasami value iteration.

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Policy evaluation

Iterative policy evaluation (algorytm)

Graph View

Backlinks