https://arxiv.org/pdf/1706.04687v1.pdf

Praca porusza problem Contextual Multi-arm Bandit Problem.

Autorzy wymieniają problemy dotychczasowych propozycji:

  1. Model jest parametryczny, tzn. zakładamy konkretny rozkład prawdopodobieństwa i estymujemy jego parametry - taki model wymaga ręcznej inżynierii cech co według autorów jest problemem
  2. Stałe w algorytmie - w niektórych algorytmach potrzeba wyspecyfikować stałą, która definiuje jak bardzo będziemy robić eksplorację (np. epsilon greedy algorithm)
  3. Często używana regresja liniowa ma problemy z dobrą estymacją prawdopodobieństwa TODO: Long 1997

Proponują metodę, która symuluje Thompson Sampling bootstrapingiem.