Taki Reinforcement Learning, w którym szukamy polityki z historycznych danych bez eksploracji.
Źródło: Optimal Bidding Strategy without Exploration in Real-time Bidding
Taki Reinforcement Learning, w którym szukamy polityki z historycznych danych bez eksploracji.
Źródło: Optimal Bidding Strategy without Exploration in Real-time Bidding