https://arxiv.org/pdf/1701.02490
Sformułowanie problemu
Problemem jest tutaj Bidding strategy problem (choć w publikacji nazywają to learning-to-bid), gdzie chcemy zmaksymalizować user-response (czyli np. liczbę klików) przy zadanym budżecie kampanii. W publikacji w ogóle nie jest rozważany problem marży, więc może klient nie płaci za pojedynczy event, ale za całą kampanię bez gwarancji klików lub klient płaci za dostarczenie (tj. płaci w momencie wygrania aukcji, tak jak w kampaniach CPM); w każdym razie nigdzie nie ma podanego sposobu rozliczania się oraz nigdzie nie ma żadnej teoretycznej gwarancji, że przychody biddera będą wyższe niż koszty (może w praktyce po prostu takie przypadki się nie zdarzają).
Zaproponowane rozwiązanie
Dla małej skali używają Dynamic programming (RL) (skala jest zupełnie niepraktyczna dla RTB) oraz value iteration algorithm.
Na stałe ustalają długość jednego epizodu na . Stan to trójka (, , ), gdzie to liczba aukcji pozostała do końca epizodu, to pozostały do wydania budżet, to cechy aukcji/użytkownika/kontekstu. Epizod jest dla jednej kampanii, startowe jest ustawiane heurystycznie.
Wyliczenia zaprezentowane w publikacji odnoszą się do Second-price auction, trzeba by je delikatnie przerobić i zobaczyć czy to też będzie działać dla First-price auction.
Dla skali produkcyjnej trenują model głęboki, który przewiduje wartość value function.
Uwaga: jako modelu CTR używają regresji logistycznej z FTRL-Proximal, tak jak w Ad Click Prediction a View from the Trenches.