Sposób na wybór ramienia w problemie Multi-armed Bandit.

Idea działania

Dla każdego ramienia mamy preferencję wyboru akcji (ramienia) , oznaczaną jako . Prawdopodobieństwo wyboru akcji wyliczamy używają softmaxa:

Sposób na aktualizację wag

Jest prosty wzór na aktualizację wag w Reinforcement Learning An introduction, rozdział 2.8, str. 37, równanie 2.12. Ten prosty wzór bierze się Aproksymacja stochastyczna gradient descent.

Źródło: Reinforcement Learning An introduction