Quartz 4

Home

❯

ML

❯

RL

❯

Policy iteration algorithm

Policy iteration algorithm

Sep 23, 20251 min read

Algorytm będący przykładem Dynamic programming (RL). Polega na naprzemiennym stosowaniu dwóch kroków: Policy evaluation oraz Policy improvement.

Klasycznie w algorytmie stosujemy na przemian te kroki. Ogólnie jednak te kroki mogą się przeplatać niekoniecznie jeden-do-jednego. Takie podejście nazywa się generalized policy iteration (GPI).

Źródło: Reinforcement Learning An introduction


Graph View

Backlinks

  • Dynamic programming (RL)

Created with Quartz v4.4.1 © 2025

  • GitHub
  • Discord Community