Ten problem to jest bardziej skomplikowana wersja Multi-armed Bandit Problem. Problem ten może być rozważany jako specjalny przypadek Reinforcement Learning. Multi-arm Bandit a Reinforcement learning
Sformułowanie problemu: Mamy jednorękich bandytów, od każdego z nich dostajemy nagrodę z nieznanym nam rozkładem. Dodatkowo mamy dostępny kontekst, czyli zbiór cech, które możemy wykorzystać. W każdej rundzie wybieramy jednego bandytę, z którego dostajemy nagrodę. Celem jest maksymalizacja wypłat w czasie. Źródło: Thompson Sampling for Contextual Bandits with Linear Payoffs
Większość algorytmów rozwiązujących ten problem składa się z dwóch części:
- algorytmu przekładającego kontekst (cechy) na predykcję, np. sieć neuronowa
- algorytmu do eksploracji, np. Thompson Sampling Źródło: A Practical Method for Solving Contextual Bandit Problems Using Decision Trees
Jako metryki używają Cumulative regret.
Publikacje adresujące powyższy problem: