Policy evaluation w reinforcement learningu oznacza tylko tyle co wyliczenie mając daną politykę oraz dokładny model środowiska (czyli to samo założeniu co w Dynamic programming (RL)).
Czasami nazywany jest prediction problem.
Iterative policy evaluation (algorytm)
Zakładając, że znamy dokładnie dynamikę środowiska (czyli znamy prawdopodobieństwa przejścia do stanu po akcji) i mamy daną politykę (czyli znamy prawdopodobieństwa wyboru akcji w stanie) to możemy iteracyjnie budować kolejne Value function (zacznając od losowej Value function) w prosty sposób, tj. Czyli po prostu Value function dla akcji w kolejnej iteracji to wyliczenie jej z jej “sąsiadów”. Ciąg otrzymanych Value function jest zbieżny gdy .
Algorytm nazywany jest czasami value iteration.