Sposób na wybór ramienia w problemie Multi-armed Bandit.
Idea działania
Dla każdego ramienia mamy preferencję wyboru akcji (ramienia) , oznaczaną jako . Prawdopodobieństwo wyboru akcji wyliczamy używają softmaxa:
Sposób na aktualizację wag
Jest prosty wzór na aktualizację wag w Reinforcement Learning An introduction, rozdział 2.8, str. 37, równanie 2.12. Ten prosty wzór bierze się Aproksymacja stochastyczna gradient descent.