https://arxiv.org/pdf/1907.12118.pdf
System typu value maximizer z ograniczeniem na ROI. Dzielą dzień na kilka kubełków i dbają o to, żeby w każdym kubełku został osiągnięty docelowy CPA modelując świat jako Markov Decision Process i używając Reinforcement Learning (DQN).