https://arxiv.org/pdf/1706.04687v1.pdf
Praca porusza problem Contextual Multi-arm Bandit Problem.
Autorzy wymieniają problemy dotychczasowych propozycji:
- Model jest parametryczny, tzn. zakładamy konkretny rozkład prawdopodobieństwa i estymujemy jego parametry - taki model wymaga ręcznej inżynierii cech co według autorów jest problemem
- Stałe w algorytmie - w niektórych algorytmach potrzeba wyspecyfikować stałą, która definiuje jak bardzo będziemy robić eksplorację (np. epsilon greedy algorithm)
- Często używana regresja liniowa ma problemy z dobrą estymacją prawdopodobieństwa TODO: Long 1997
Proponują metodę, która symuluje Thompson Sampling bootstrapingiem.