Problem (selection bias)
Problem polegający na tym, że do zbioru treningowego modelu przedostają się tylko niektóre z danych na których model działa na produkcji. W przypadku RTB w zbiorze treningowym mamy tylko takie dane, które wygraliśmy (w przypadku CTR).
Biorąc do uczenia tylko te bidy, które wygraliśmy (bo tylko dla nich znamy response), mamy zaburzony rozkład danych - online dostajemy do wyceny wszystkie dane, a w uczeniu tylko część z nich. Dane do uczenia są więc cenzorowane, czyli występuje selection bias. Między datasetem treningowym a produkcją występuje distribution shift.
Inna nazwa na ten sam problem: “missing not at random” (za: Improving Ad Click Prediction by Considering Non-displayed Events)
Źródło: Addressing Distribution Shift in RTB Markets via Exponential Tilting
Pomysły
Autorzy w Improving Ad Click Prediction by Considering Non-displayed Events wskazują, że w standardowych modelach estymujących CTR założenie jest takie, że prawdopodobieństwo kliknięcia niewyświetlonej reklamy równe jest 0. Takie założenie nie jest poprawne, ponieważ systemy CTR estymują prawdopodobieństwo kliknięcia pod warunkiem wyświetlenia (wygrania). Można więc patrzeć na ten problem w taki sposób, że w części danych (czyli aukcji, które nie wygraliśmy) brakuje nam labela. Taki problem nazywa się też counterfactual learning.
Bid-aware Gradient Descent for Unbiased Learning with Censored Data in Display Advertising
Biased data problem to to samo co missing data problem (za Bid-aware Gradient Descent for Unbiased Learning with Censored Data in Display Advertising).
Wprowadzają wagę (win ratio) do trenowania modelu.
Bid-Aware Active Learning in Real-Time Bidding for Display Advertising
Proponują wprowadzenie dla każdego bidu współczynnika: gdzie to p-stwo bid requestu online; to p-stwo bid requestu offline, czyli w danych do uczenia. można wtedy wykorzystać jako wagę podczas trenowania modelu - waga spowoduje, że bid request, którego wygrywamy rzadko będzie miał większą wagę niż bid request, który wygrywamy często.
jest proporcjonalne do gdzie to p-stwo wygrania bid requestu . Próbując to normalizować to dostajemy: Całkę na dole możemy przybliżyć poprzez , czyli to globalne win ratio.
Czyli, Do tego trzeba mieć tylko (albo aż) z landscape.
Addressing Distribution Shift in RTB Markets via Exponential Tilting
Przedstawienie problemu z użyciem Empirical Risk Minimization, ale rozumowanie analogiczne do Bid-Aware Active Learning in Real-Time Bidding for Display Advertising.
Różnica między tym rozwiązaniem z wagowaniem poprzez jest taka, że funkcja przenosząca cechy na wagi jest funkcją eksponencjaną co jest prostsze do wytrenowania niż model predykujący prawdopodobieństwo wygrania.
Improving Ad Click Prediction by Considering Non-displayed Events
Podają 3 metody z innych publikacji:
- “Direct Method”: Uczymy pierwszy model na danych, których mamy; następnie używamy tego modelu do olabelowania danych, dla których nie mamy odpowiedzi (przegranych). Potem, mając już pełny dataset, uczymy drugi model wykorzystywany później do predykcji CTR.
- “Inverse-propensity scoring Method”: wagujemy każdy input do modelu przez p-stwo wyświetlenia (wygrania). Właściwie to samo, co w Bid-Aware Active Learning in Real-Time Bidding for Display Advertising
- “Doubly Robust Method” - jest to połączenie obu powyższych metod - jest twierdzenie, które mówi, że bias modelu w tej metodzie to iloczyn biasów z direct i IPS. Podobno w praktyce sprawdza się lepiej niże sam IPS lub sam direct method.