W RL kiedy robimy aktualizację value function możemy użyć wartości oczekiwanej lub samplowania. Aby użyć wartości oczekiwanej musimy oczywiście mieć model środowiska. Co jest generalnie lepsze? Dokładniejsze jest używanie wartości oczekiwanej, bo pozbywamy się jednego źródła losowości - samplowania. Ale najczęściej używanie wartości oczekiwanej powoduje niepraktyczny wzrost ilości obliczeń, który musimy dokonać.

Źródło: Reinforcement Learning An introduction