Inaczej control problem, czyli sposób na znajdowanie optymalnej policy.
Policy improvement theorem
Jeśli mamy daną Policy jak i również Value function to jeśli znajdziemy dla stanu taką akcję , że gdzie to dla każdego , czyli znaleźliśmy lepszą politykę! Czyli wystarczy lokalnie znaleźć lepszą akcję, żeby otrzymać lepszą politykę.
Policy improvement algorithm
Algorytm polegający na iteracyjnym poprawianiu Policy według policy improvement theorem. Taka zachłanna (iteracyjna) procedura prowadzi to znalezienia optymalnej policy!