A Practical Method for Solving Contextual Bandit Problems Using Decision Trees

Autorzy wymieniają problemy dotychczasowych propozycji:

Model jest parametryczny, tzn. zakładamy konkretny rozkład prawdopodobieństwa i estymujemy jego parametry - taki model wymaga ręcznej inżynierii cech co według autorów jest problemem
Stałe w algorytmie - w niektórych algorytmach potrzeba wyspecyfikować stałą, która definiuje jak bardzo będziemy robić eksplorację (np. epsilon greedy algorithm)
Często używana regresja liniowa ma problemy z dobrą estymacją prawdopodobieństwa TODO: Long 1997

Quartz 4