Gradient Bandit Algorithm

Sposób na wybór ramienia w problemie Multi-armed Bandit.

Idea działania

Dla każdego ramienia mamy preferencję wyboru akcji (ramienia) $a$ , oznaczaną jako $H (a) \in R$ . Prawdopodobieństwo wyboru akcji $a$ wyliczamy używają softmaxa: $P [A_{t} = a] = \frac{e ^{H_{t} (a)}}{\sum _{b} e ^{H_{t} (b)}} = π_{t} (a)$

Sposób na aktualizację wag

Jest prosty wzór na aktualizację wag w Reinforcement Learning An introduction, rozdział 2.8, str. 37, równanie 2.12. Ten prosty wzór bierze się Aproksymacja stochastyczna gradient descent.

Źródło: Reinforcement Learning An introduction

Quartz 4

Explorer

Gradient Bandit Algorithm

Idea działania

Sposób na aktualizację wag

Graph View

Backlinks