Jest to rodzina algorytmów z dziedziny Reinforcement Learning, w których bierzemy stan obecny i począwszy od tego stanu symulujemy kolejne akcje i stany za pomocą Trajectory sampling (dokładnie tak jak w metodach Monte Carlo) i estymujemy wartość akcji poprzez uśrednianie otrzymanych wyników.
Przykładowe algorytmy: