Metoda z dziedziny Reinforcement Learning pozwalające na estymację optymalnej Policy.

W przeciwieństwie do Dynamic programming (RL), metoda nie wymaga kompletnej wiedzy o środowisku (modelu) oraz nie działa na zasadzie bootstrappingu.

Metody tego typu wymagają tego, aby problem był epizodyczny. Aktualizacja następuje dopiero po zakończeniu epizodu (czyli można powiedzieć, że wolniej od Dynamic programming (RL), gdzie tam aktualizacja może występować po każdym kroku). Metody polegają na uśrednianiu wyników z wielu epizodów.

Wyznaczanie Value function

Puszcamy wiele epizodów i patrzymy jakie wartości reward dostajemy na końcu (po zakończeniu epizodu) odwiedzając dane stan. Uśredniamy te wartości i mamy estymację reward po odwiedzeniu danego stanu.

Metody na eksplorację

Algorytmy

Źródło: Reinforcement Learning An introduction