Adapting Constrained Markov Decision Process for OCPC Bidding with Delayed Conversions

https://dl.acm.org/doi/pdf/10.1145/3706420

Problem optymalizacyjny

OCPC, czyli rozliczamy się za klik, ale mamy constrained w postaci oczekiwanego cost-per-conversion, a w dodatku za zbyt dużego cost-per-conversion bidder musi zapłacić dodatkowo sklepowi jakąś kasę.

Dotychczasowe rozwiązanie

Autorzy opisują, że używają PIDa do tego, aby optymalizować cost-per-conversion, tzn. utrzymywać cost-per-conversion na zadanym poziomie. Ale uwaga: liczą cost-per-conversion na podstawie aktualnych danych, zupełnie nie zwracając uwagi na to, że konwersje przychodzą z opóźnieniem. W związku z tym do PIDa trafia zawsze zaniżone cost-per-conversion!

Wydaje się, że ten PID jedynie co robi to obniża wyceny (wprowadza mnożnik do wycen) i działa na podstawie różnicy (obecny cost-per-conversion - docelowy cost-per-conversion). W ten sposób w ogóle nie estymują prawdopodobieństwa konwersji pod warunkiem klika!

Zaproponowane usprawnienia

Estymacja przyszłych konwersji (Jak uczyć model gdy powoli spływają odpowiedzi)

Zakładają, że p-stwo wystąpienia konwersji po klika spada eksponencjalnie w czasie. Znajdują optymalny parametr $λ$ rozkładu eksponencjalnego na spływających danych (nawet jeśli od klika nie minęło pełne okno atrybucji). Dzięki temu mogą estymować ile konwersji jeszcze im spłynie i nie mają już zaniżonej estymacji cost-per-conversion.

Reinforcement Learning

Polityka jest siecią neuronową zwracającą akcję (= wartość bid response). Sieć przyjmuje na wejściu cechy opisujące dla $k$ poprzednich bidów czy ktoś kliknął i cechy związane z przeszłymi aukcjami. Jako algorytmu do trenowania używają Constrained Policy Optimization.

Polityka bierze na siebie odpowiedzialność za estymację szansy na konwersję - tzn. PID tego na pewno nie potrafił, a RL (będący siecią neuronową) już tak.

Podsumowanie

Dwa usprawnienia proponują: 1) poprawna estymacja cost-per-conversion 2) używanie RL zamiast PIDa, co pozwala implicite szacować p-stwo skonwertowania usera; zmniejszyć wariancję w porównaniu do PIDa; wprost wprowadzić constrained (czego PID też nie potrafił).

Ekstra uwagi

Piszą, że ich estymacja przyszłych konwersji działa lepiej niż A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback

W załączniku autorzy podają bardzo dokładnie wszystkie parametry modeli.

Quartz 4

Explorer