https://dl.acm.org/doi/pdf/10.1145/2487575.2488200
Publikacja od Google
Publikacja rozważa problem “sponsored search advertising”, ale clue publikacji jest model estymujący szansę kliknięcia w reklamę CTR, CVR prediction problem, więc publikacja aplikuje się również do RTB.
Używają regresji logistycznej do estymacji CTR. Charakterystyczne dla ich problemu są następujące kwestie:
- dane do uczenia są ekstremalnie rzadkie (w tym sensie, że często wartością cechy jest 0),
- liczba cech modelu jest rzędu miliardów (!),
- typowo, cecha będzie miała wartość niezerową tylko w setkach przypadków Nie jest to napisane wprost, ale wnioskuję z powyższego, że skoro cech jest tak dużo, to zmienne categorical są podawane po prostu jako one-hot encoding.
FTRL-Proximal
Ponieważ liczba cech modelu jest tak duża, chcą aby proces trenowania modelu sam wyzerował wagi przy nieistotnych cechach. Standardowy stochastic gradient descent z regularyzacją L1 uczony w sposób online (czyli model widzi każdą instancję tylko raz podczas uczenia) słabo sobie radzi z wprowadzaniem sparsity do wag. Wykorzystali więc inny algorytm, FTRL-Proximal i pokazują dane, że bez spadku accuracy, sposób ten zeruje więcej wag, co wpływa później na szybkość działania na produkcji.
Per-Coordinate Learning Rates
Opisują, że nie używają jednego learning rate, ale learning rate dla każdej cechy jest inny i uzależniony od liczby wystąpień tej cechy. Taki sam efekt (różnych learning rate) występuje w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine, tylko tam wynika to wprost z mechanizmu, a w Google wprowadzane jest to nieco sztucznie.
Dodawanie cech online
W używanym przez Google modelu oprócz tego, że cechy są eliminowane wraz z uczeniem, to cechy również są dodawane wraz z uczeniem (online). Nie jest to napisane wprost, ale wnioskuję, że obsługuje to sytuacje, w których startuje nowa kampania, pojawia się nowe powierzchnia itp.
Subsampling danych treningowych (Negative down-sampling)
Danych jest bardzo dużo, więc robią sampling danych nie-klikniętych, w zamian za to wagując je podczas trenowania. Udowadniają, że to w teorii nie ma wpływu na oczekiwaną wartość funkcji straty, ale też eksperymentalnie potwierdzili, że agresywne negative down-sampling ma bardzo mały wpływ na accuracy.
Estymacja niepewności modelu
Zaproponowali jakiś prosty mechanizm mający określać niepewność estymacji, który znów jest analogiczny do tego co jest w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine, z tym, że tam wynika to wprost z mechanizmu, a w Google wprowadzone nieco sztucznie. Z publikacji nie wynika czy i jak używają to do eksploracji.
Kalibracja
Używają isotonic regression.
Podsumowanie
Widzę dużą analogię do bayesiana.