Algorytm typu Monte Carlo Methods (RL)
Zasada działania: przy każdym epizodzie robimy exploring starts. Po każdym epizodzie aktualizujemy funkcję q i od razu politykę. To zbiega (chociaż nie jest formalnie udowodnione).
Algorytm typu Monte Carlo Methods (RL)
Zasada działania: przy każdym epizodzie robimy exploring starts. Po każdym epizodzie aktualizujemy funkcję q i od razu politykę. To zbiega (chociaż nie jest formalnie udowodnione).