Problemy:
- Multi-armed Bandit Problem
- Contextual Multi-arm Bandit Problem Można traktować jako szczególne przypadki Reinforcement Learning.
W Multi-armed Bandit Problem mamy politykę, która definiuje rozkład nad akcjami, którymi możemy zagrać. Mamy również nieznaną funkcję nagrody, która determinuje rozkład nagrody po wykonaniu akcji. W Contextual Multi-arm Bandit Problem idziemy o poziom wyżej - wzbogacamy politykę oraz funkcję nagrody o kontekst (o dodatkową zmienną / zmienne egzogeniczną). W kontekście RL, Markov Decision Process można traktować jak sekwencję bandytów kontekstowych, gdzie kontekst to nie jest już zmienna egzogeniczna, tylko zmienna zależąca od poprzednich stanów i akcji.
Co więcej, problemy powyższe mają powiązanie z modelami przyczynowymi, bo jak piszą w Counterfactual Reasoning and Learning Systems The Example of Computational Advertising, wiele prostych modeli przyczynowych można zredukować do np. Contextual Multi-arm Bandit Problem.
Źródło: Counterfactual Reasoning and Learning Systems The Example of Computational Advertising