https://arxiv.org/pdf/2402.06859

Typ publikacji podobny do On the Factory Floor ML Engineering for Industrial-Scale Ads Recommendation Models lub Practical Lessons from Predicting Clicks on Ads at Facebook, czyli mega praktyczna i przekrojowa praca o best-practices. Porusza wiele tematów.

Opisują dwa rodzaje modeli, które mają:

  1. model rankingowy do rankingowania postów do wyświetlenia
  2. model przewidujący CTR, który wpływa na wyświetlanie reklam

Model CTR

  1. Trzymają embeddingi per ID reklamodawcy, ID kampanii… - nie wiem czemu tak, czy to spowoduje przueczania się? Co z coldstartem? Nie piszą tego…
  2. W publikacji (3.3) opisują jak przyspieszyć sieć DCNv2
  3. Modelują historię użytkownika i to im dało największy boost!
  4. Opisują w jaki sposób ogarniają w optymalny sposób sparse cechy z ogromną liczbą wartości - Minimal Perfect Hashing Function, QR hashing. Dodatkowo kwantyzują tabelę z embeddingami.
  5. Początkowo czas trenowania to 70 godzin, zbili do ~7, wykorystując Horovod, custom ładowanie danych, itp. Uwaga: obecnie w innych frameworkach odradza używania Horovod, i używania wprost tf.dtributed.Strategy
  6. Uwaga: używają learning rate warm-up oraz gradient clipping. Dużo im to pomogło.

Trenowalna kalibracja w sieciach neuronowych

Mamy ustaloną liczbę bucketów (czyli nie tak jak w Isotonic regression gdzie podziały dostosowują się same)! Wykorzystując sprytnie Relu dla każdego bucketu dobieramy wagi (na wagi mają wpływ bezpośrednio inputy do sieci, więc jest to powerful kalibracjia), które wpływają na to jakie wyjście jest dla każdego bucketu. Uwaga: w ostatnim buckecie przesuwamy się liniowo!

Incremental learning

Cykliczne przeuczanie modelu, ale żeby nie przeuczać go w całości, to co pół dnia trenują go na nowych danych gdzie wagi są zainicjalizowane “cold modelem” (czyli tym trenowanym w normalny sposób na całych danych).

U nas trochę rolę incremental learningu pełni Bayesian online learning probit regression.

Eksploracja

Dodatkowo robią Thompson Sampling wykorzystując to, że ostatnia warstwa jest Bayesian Linear Regression. Ale tej metody nie wykorzystują w reklamie akurat! W reklamie w aukcji samplując w dół zaczynamy więcej przegrywać (zobacz Samplowanie ceny bida)!