User Value Prediction under Zero-Inflated and Long-Tailed Distributions in Mobile Advertising zawiera mały przegląd publikacji dlaczego problem eksploracji jest trudny, ale wymagany, oraz że trudno jest mierzyć efekt eksploracji; nie podaje informacji jak zrobić eksplorację
Pomysły:
- eksploracja by LinkedIn
- Optimal Bidding Strategy without Exploration in Real-time Bidding - mają RL, ale nie ma eksploracji online, ponieważ stworzyli model symulujący środowisko, przez co uczą swój RL offline w symulowanym środowisku i offline robią “eksplorację”