Unbiased bidding

Problem (selection bias)

Problem polegający na tym, że do zbioru treningowego modelu przedostają się tylko niektóre z danych na których model działa na produkcji. W przypadku RTB w zbiorze treningowym mamy tylko takie dane, które wygraliśmy (w przypadku CTR).

Biorąc do uczenia tylko te bidy, które wygraliśmy (bo tylko dla nich znamy response), mamy zaburzony rozkład danych - online dostajemy do wyceny wszystkie dane, a w uczeniu tylko część z nich. Dane do uczenia są więc cenzorowane, czyli występuje selection bias. Między datasetem treningowym a produkcją występuje distribution shift.

Inna nazwa na ten sam problem: “missing not at random” (za: Improving Ad Click Prediction by Considering Non-displayed Events)

Źródło: Addressing Distribution Shift in RTB Markets via Exponential Tilting

Pomysły

Autorzy w Improving Ad Click Prediction by Considering Non-displayed Events wskazują, że w standardowych modelach estymujących CTR założenie jest takie, że prawdopodobieństwo kliknięcia niewyświetlonej reklamy równe jest 0. Takie założenie nie jest poprawne, ponieważ systemy CTR estymują prawdopodobieństwo kliknięcia pod warunkiem wyświetlenia (wygrania). Można więc patrzeć na ten problem w taki sposób, że w części danych (czyli aukcji, które nie wygraliśmy) brakuje nam labela. Taki problem nazywa się też counterfactual learning.

Bid-aware Gradient Descent for Unbiased Learning with Censored Data in Display Advertising

Biased data problem to to samo co missing data problem (za Bid-aware Gradient Descent for Unbiased Learning with Censored Data in Display Advertising).

Wprowadzają wagę (win ratio) do trenowania modelu.

Bid-Aware Active Learning in Real-Time Bidding for Display Advertising

Proponują wprowadzenie dla każdego bidu współczynnika: $δ = \frac{p _{o n} ( b )}{p _{t r ain} ( b )}$ gdzie $p_{o n}$ to p-stwo bid requestu online; $p_{t r ain}$ to p-stwo bid requestu offline, czyli w danych do uczenia. $δ$ można wtedy wykorzystać jako wagę podczas trenowania modelu - waga spowoduje, że bid request, którego wygrywamy rzadko będzie miał większą wagę niż bid request, który wygrywamy często.

$p_{t r ain}$ jest proporcjonalne do $p_{o n} (b) \cdot p_{w in} (b)$ gdzie $p_{w in}$ to p-stwo wygrania bid requestu $b$ . Próbując to normalizować to dostajemy: $p_{t r ain} (b) = \frac{p _{o n} ( b ) \cdot p _{w in} ( b )}{\int p _{o n} ( x ) \cdot p _{w in} ( x ) d x}$ Całkę na dole możemy przybliżyć poprzez $W = \frac{l i cz ba w y g r an yc h a u k c ji}{l i cz ba a u k c ji w k t o ˊ ryc h w z i e l i s m y u d z ia ł}$ , czyli $W$ to globalne win ratio.

Czyli, $δ = \frac{W}{p _{w in} ( b )}$ Do tego trzeba mieć tylko (albo aż) $p_{w in} (b)$ z landscape.

Addressing Distribution Shift in RTB Markets via Exponential Tilting

Przedstawienie problemu z użyciem Empirical Risk Minimization, ale rozumowanie analogiczne do Bid-Aware Active Learning in Real-Time Bidding for Display Advertising.

Różnica między tym rozwiązaniem z wagowaniem poprzez $\frac{1}{p _{w in}}$ jest taka, że funkcja przenosząca cechy na wagi jest funkcją eksponencjaną co jest prostsze do wytrenowania niż model predykujący prawdopodobieństwo wygrania.

Improving Ad Click Prediction by Considering Non-displayed Events

Podają 3 metody z innych publikacji:

“Direct Method”: Uczymy pierwszy model na danych, których mamy; następnie używamy tego modelu do olabelowania danych, dla których nie mamy odpowiedzi (przegranych). Potem, mając już pełny dataset, uczymy drugi model wykorzystywany później do predykcji CTR.
“Inverse-propensity scoring Method”: wagujemy każdy input do modelu przez p-stwo wyświetlenia (wygrania). Właściwie to samo, co w Bid-Aware Active Learning in Real-Time Bidding for Display Advertising
“Doubly Robust Method” - jest to połączenie obu powyższych metod - jest twierdzenie, które mówi, że bias modelu w tej metodzie to iloczyn biasów z direct i IPS. Podobno w praktyce sprawdza się lepiej niże sam IPS lub sam direct method.

Quartz 4

Explorer

Unbiased bidding

Problem (selection bias)

Pomysły

Bid-aware Gradient Descent for Unbiased Learning with Censored Data in Display Advertising

Bid-Aware Active Learning in Real-Time Bidding for Display Advertising

Addressing Distribution Shift in RTB Markets via Exponential Tilting

Improving Ad Click Prediction by Considering Non-displayed Events

Rozszerzanie zbioru danych

Energy-based models

Graph View

Table of Contents

Backlinks