https://dl.acm.org/doi/pdf/10.1145/3706420
Problem optymalizacyjny
OCPC, czyli rozliczamy się za klik, ale mamy constrained w postaci oczekiwanego cost-per-conversion, a w dodatku za zbyt dużego cost-per-conversion bidder musi zapłacić dodatkowo sklepowi jakąś kasę.
Dotychczasowe rozwiązanie
Autorzy opisują, że używają PIDa do tego, aby optymalizować cost-per-conversion, tzn. utrzymywać cost-per-conversion na zadanym poziomie. Ale uwaga: liczą cost-per-conversion na podstawie aktualnych danych, zupełnie nie zwracając uwagi na to, że konwersje przychodzą z opóźnieniem. W związku z tym do PIDa trafia zawsze zaniżone cost-per-conversion!
Wydaje się, że ten PID jedynie co robi to obniża wyceny (wprowadza mnożnik do wycen) i działa na podstawie różnicy (obecny cost-per-conversion - docelowy cost-per-conversion). W ten sposób w ogóle nie estymują prawdopodobieństwa konwersji pod warunkiem klika!
Zaproponowane usprawnienia
Estymacja przyszłych konwersji (Jak uczyć model gdy powoli spływają odpowiedzi.)
Zakładają, że p-stwo wystąpienia konwersji po klika spada eksponencjalnie w czasie. Znajdują optymalny parametr rozkładu eksponencjalnego na spływających danych (nawet jeśli od klika nie minęło pełne okno atrybucji). Dzięki temu mogą estymować ile konwersji jeszcze im spłynie i nie mają już zaniżonej estymacji cost-per-conversion.
Reinforcement Learning
Polityka jest siecią neuronową zwracającą akcję (= wartość bid response). Sieć przyjmuje na wejściu cechy opisujące dla poprzednich bidów czy ktoś kliknął i cechy związane z przeszłymi aukcjami. Jako algorytmu do trenowania używają Constrained Policy Optimization.
Polityka bierze na siebie odpowiedzialność za estymację szansy na konwersję - tzn. PID tego na pewno nie potrafił, a RL (będący siecią neuronową) już tak.
Podsumowanie
Dwa usprawnienia proponują: 1) poprawna estymacja cost-per-conversion 2) używanie RL zamiast PIDa, co pozwala implicite szacować p-stwo skonwertowania usera; zmniejszyć wariancję w porównaniu do PIDa; wprost wprowadzić constrained (czego PID też nie potrafił).
Ekstra uwagi
Piszą, że ich estymacja przyszłych konwersji działa lepiej niż A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback
W załączniku autorzy podają bardzo dokładnie wszystkie parametry modeli.