Expected vs Sample Updates

W RL kiedy robimy aktualizację value function możemy użyć wartości oczekiwanej lub samplowania. Aby użyć wartości oczekiwanej musimy oczywiście mieć model środowiska. Co jest generalnie lepsze? Dokładniejsze jest używanie wartości oczekiwanej, bo pozbywamy się jednego źródła losowości - samplowania. Ale najczęściej używanie wartości oczekiwanej powoduje niepraktyczny wzrost ilości obliczeń, który musimy dokonać.

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Expected vs Sample Updates

Graph View

Backlinks