https://dl.acm.org/doi/pdf/10.1145/2487575.2488200

Publikacja od Google

Publikacja rozważa problem “sponsored search advertising”, ale clue publikacji jest model estymujący szansę kliknięcia w reklamę CTR, CVR prediction problem, więc publikacja aplikuje się również do RTB.

Używają regresji logistycznej do estymacji CTR. Charakterystyczne dla ich problemu są następujące kwestie:

  • dane do uczenia są ekstremalnie rzadkie (w tym sensie, że często wartością cechy jest 0),
  • liczba cech modelu jest rzędu miliardów (!),
  • typowo, cecha będzie miała wartość niezerową tylko w setkach przypadków Nie jest to napisane wprost, ale wnioskuję z powyższego, że skoro cech jest tak dużo, to zmienne categorical są podawane po prostu jako one-hot encoding.
FTRL-Proximal

Ponieważ liczba cech modelu jest tak duża, chcą aby proces trenowania modelu sam wyzerował wagi przy nieistotnych cechach. Standardowy stochastic gradient descent z regularyzacją L1 uczony w sposób online (czyli model widzi każdą instancję tylko raz podczas uczenia) słabo sobie radzi z wprowadzaniem sparsity do wag. Wykorzystali więc inny algorytm, FTRL-Proximal i pokazują dane, że bez spadku accuracy, sposób ten zeruje więcej wag, co wpływa później na szybkość działania na produkcji.

Per-Coordinate Learning Rates

Opisują, że nie używają jednego learning rate, ale learning rate dla każdej cechy jest inny i uzależniony od liczby wystąpień tej cechy. Taki sam efekt (różnych learning rate) występuje w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine, tylko tam wynika to wprost z mechanizmu, a w Google wprowadzane jest to nieco sztucznie.

Dodawanie cech online

W używanym przez Google modelu oprócz tego, że cechy są eliminowane wraz z uczeniem, to cechy również są dodawane wraz z uczeniem (online). Nie jest to napisane wprost, ale wnioskuję, że obsługuje to sytuacje, w których startuje nowa kampania, pojawia się nowe powierzchnia itp.

Subsampling danych treningowych (Negative down-sampling)

Danych jest bardzo dużo, więc robią sampling danych nie-klikniętych, w zamian za to wagując je podczas trenowania. Udowadniają, że to w teorii nie ma wpływu na oczekiwaną wartość funkcji straty, ale też eksperymentalnie potwierdzili, że agresywne negative down-sampling ma bardzo mały wpływ na accuracy.

Estymacja niepewności modelu

Zaproponowali jakiś prosty mechanizm mający określać niepewność estymacji, który znów jest analogiczny do tego co jest w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine, z tym, że tam wynika to wprost z mechanizmu, a w Google wprowadzone nieco sztucznie. Z publikacji nie wynika czy i jak używają to do eksploracji.

Kalibracja

Używają isotonic regression.

Podsumowanie

Widzę dużą analogię do bayesiana.