https://dl.acm.org/doi/abs/10.1145/3447548.3467280
Publikacja jest mocno zainspirowana podejściem Reinforcement Learning, w szczególności książką Reinforcement Learning An introduction. W tym ujęciu cały ciąg bid requestów danego użytkownika jest jednym epizodem i chodzi o to, aby doprowadzić na końcu do konwersji (zakładne jest, że każdy użytkownik to osobna instancja Markov Decision Process). Czyli nie rozpatrujemy każdego bid requestu osobno, a zamiast tego ciągi bid-requestów pogrupowane po użytkowniku.
Dlaczego standardowe bidowanie (tj. każdy bid-request wyceniany i rozpatrywany osobno) nie jest optymalnym rozwiązaniem? Tłumaczenie podobne do tego w publikacji ^e1ac21: wyobraźmy sobie, że mamy 2 kliki, A i B. B występuje po A, ale aby nakłonić użytkownika do kupna wystarczy klik A. Atrybucja w danych uczących będzie przypisana zawsze do B, więc A będzie niedoszacowany.
Optymalna strategia
W twierdzeniu 3.1 autorzy proponują strategię optymalnego bidowania (optymalnego, czyli maksymalizującego zysk biddera, tj. w tym rozwiązaniu zawarty jest też bid-shading). W second-price auction lub w problemie optymalizacyjnym HIGa, tj. maksymalizacji obrotów przy zerowej marży, interesuje nas poprawna wycena użytkownika, czyli jedynie gdzie to konkretny bid-request, CPA to stawka, to różnica w oczekiwanych przychodach (uplift, może to być np. o ile wzrasta p-stwo konwersji), to różnica w kosztach. Uwaga 1: autorzy zakładają później, że . Uwaga 2: autorzy zakładają, że jest binarna - może to powodować kłopoty z modelowaniem wielu konwersji (obecnie mamy to ukryte w modelu BV, ale potencjalnie może być sytuacja w której p-stwo wystąpienia co najmniej jednej konwersji się nie zmienia, ale zmienia się oczekiwana zmiana w wartości koszyka - autorzy w ogóle nie adresują tego problemu, a my moglibyśmy też prawdopoodbnie zamknąć na to oczy).
Autorzy pokazują, że Co zmienia się w wycenie:
- model CTR - bez zmian,
- model CVR - zmienia się atrybuowanie. Wybrany jest jakiś konkretne okno czasowe i klik dostaje label 1 jeśli w danym oknie czasowym po kliku nastąpiła konwersja,
- dodatkowy model oceniający p-stwo konwersji pod warunkiem nie-klika (pokazane jest to w w kodzie źródło od autorów
- CVR’ to różnica modeli 2. oraz 3.
Jak oceniać model CVR’
Ponieważ nie możemy jednocześnie obserwować obserwować sytuacji czy nastąpiła konwersja po kliku i czy nastąpiła konwersja po nie-kliku, trudno jest ocenić offline jakości modelu CVR’. Jednak autorzy pokazują, że da się policzyć log-likelihood w takiej sytuacji i dzięki temu mieć np. metrykę do selekcji modeli offline (!).
Dodatkowe uwagi
Uwaga: w “Assumption 3” autorzy zakładają, że ceny bid-requesta wpływa tylko i wyłącznie na to czy wygrana zostanie aukcja i nie ma wpływu na przyszłość. Założenie to może nie być spełnione w przypadku działania mechanizmu landscapu (w szczególności Landscape na powierzchni zewnętrznej) lub gdy wydawca ustawia floora w następnej aukcji na podstawie wcześniejszych bid-requestów danego użytkownika.
Uwaga: w “Assumption 4” autorzy zakładają nie kliknięta (ale widziana) reklama nie wpływa w żaden sposób na p-stwo konwersji oraz na przyszłe wyceny. To założenie nie będzie spełnione np. gdy bidder dostaje jako cechę liczbę reklam, które widział użytkownik.
Publikacja zawiera krótki przegląd literatury w temacie pacingu.
Związek z HIG - sformułowanie problemu
Myślałem, że rozumowanie zaprezentowane w sekcji 5 publikacji będzie można zastosować w Landscape na powierzchni zewnętrznej, ale prawdopodobnie nie, bo w landscape w Causal Graph (fig 3) C to musiałaby byc cena innego biddera, czyli zmienna ciągła, a twierdzenie zakłada tam zmienna binarną.