Policy evaluation w reinforcement learningu oznacza tylko tyle co wyliczenie mając daną politykę oraz dokładny model środowiska (czyli to samo założeniu co w Dynamic programming (RL)).

Czasami nazywany jest prediction problem.

Iterative policy evaluation (algorytm)

Zakładając, że znamy dokładnie dynamikę środowiska (czyli znamy prawdopodobieństwa przejścia do stanu po akcji) i mamy daną politykę (czyli znamy prawdopodobieństwa wyboru akcji w stanie) to możemy iteracyjnie budować kolejne Value function (zacznając od losowej Value function) w prosty sposób, tj. Czyli po prostu Value function dla akcji w kolejnej iteracji to wyliczenie jej z jej “sąsiadów”. Ciąg otrzymanych Value function jest zbieżny gdy .

Algorytm nazywany jest czasami value iteration.

Źródło: Reinforcement Learning An introduction