https://epubs.siam.org/doi/pdf/10.1137/1.9781611976236.34
W publikacji rozważana jest Second-price auction, przez co mogą znać cenę rynkową (cena rynkowa, tzn. najwyższa cena jaką dał inny bidder - w Second-price auction ta cena jest znana, bo bidder płaci nią jeśli wygrał).
Kluczowym pomysłem jest imitacja środowiska (Inverse Reinforcement Learning). Tworzą/estymują 1) model środowiska 2) rozkład prawdopodobieństwa otrzymania nagrody ze środowiska.
Potem za pomocą Reinforcement Learning uczą model na środowisku, które sobie zamodelowali. Dzięki imitacji środowiska mogą offline robić eksplorację.