https://www.diva-portal.org/smash/get/diva2:1926670/FULLTEXT01.pdf

Publikacja o RL w RTB. Jest typowo akademicka, całkowicie niepraktyczna. Po prostu zaimplementowanych jest kilka algorytmów Reinforcement Learning, m.in. Sarsa, Monte Carlo Methods (RL), Q-learning. Problem polega na maksymalizacji klikalności przy ograniczonym budżecie.

Mają ustaloną stawkę po której kupują ruch, niezależną od środowiska, a stanem jest po prostu ID strony oraz pozostał budżet.

Wyszło im, że Temporal Difference Learning jest lepszy od Monte Carlo Methods (RL) w ich problemie RTB.