Policy improvement

Inaczej control problem, czyli sposób na znajdowanie optymalnej policy.

Policy improvement theorem

Jeśli mamy daną Policy jak i również Value function $v_{π}$ to jeśli znajdziemy dla stanu $s$ taką akcję $a$ , że $q_{π} (s, a) \geq v_{π} (s)$ gdzie $a = π^{'} (s)$ to $v_{π^{'}} (s) \geq v_{π}$ dla każdego $s$ , czyli znaleźliśmy lepszą politykę! Czyli wystarczy lokalnie znaleźć lepszą akcję, żeby otrzymać lepszą politykę.

Policy improvement algorithm

Algorytm polegający na iteracyjnym poprawianiu Policy według policy improvement theorem. Taka zachłanna (iteracyjna) procedura prowadzi to znalezienia optymalnej policy!

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Policy improvement

Policy improvement theorem

Policy improvement algorithm

Graph View

Backlinks