Problemy:

  1. Multi-armed Bandit Problem
  2. Contextual Multi-arm Bandit Problem Można traktować jako szczególne przypadki Reinforcement Learning.

W Multi-armed Bandit Problem mamy politykę, która definiuje rozkład nad akcjami, którymi możemy zagrać. Mamy również nieznaną funkcję nagrody, która determinuje rozkład nagrody po wykonaniu akcji. W Contextual Multi-arm Bandit Problem idziemy o poziom wyżej - wzbogacamy politykę oraz funkcję nagrody o kontekst (o dodatkową zmienną / zmienne egzogeniczną). W kontekście RL, Markov Decision Process można traktować jak sekwencję bandytów kontekstowych, gdzie kontekst to nie jest już zmienna egzogeniczna, tylko zmienna zależąca od poprzednich stanów i akcji.

Co więcej, problemy powyższe mają powiązanie z modelami przyczynowymi, bo jak piszą w Counterfactual Reasoning and Learning Systems The Example of Computational Advertising, wiele prostych modeli przyczynowych można zredukować do np. Contextual Multi-arm Bandit Problem.

Źródło: Counterfactual Reasoning and Learning Systems The Example of Computational Advertising