Inaczej control problem, czyli sposób na znajdowanie optymalnej policy.

Policy improvement theorem

Jeśli mamy daną Policy jak i również Value function to jeśli znajdziemy dla stanu taką akcję , że gdzie to dla każdego , czyli znaleźliśmy lepszą politykę! Czyli wystarczy lokalnie znaleźć lepszą akcję, żeby otrzymać lepszą politykę.

Policy improvement algorithm

Algorytm polegający na iteracyjnym poprawianiu Policy według policy improvement theorem. Taka zachłanna (iteracyjna) procedura prowadzi to znalezienia optymalnej policy!

Źródło: Reinforcement Learning An introduction