Rozważany problem

Mamy system do rankingowy, który dopasowuje reklamę do konkretnego usera. System jest multi-stage. Autorzy proponują jak poprawić ten system, skupiając się na poprawie modelu wczesnej fazy.

Co zaproponowali

Architektura sieci, którą używają: DLRM, ale z dwoma wieżami - jedna dla cech usera, druga dla cech reklamy.

Multi-task learning w RTB

Model wczesnej fazy, oprócz predykcji zwykłego CTRa, ma dodane jeszcze dwa wyjścia:

  1. Wyjście mówiące o dopasowania reklamy dla usera (mają jakiś swoją miarę dopasowania, która jest mixem bardziej granularnych labeli, np. “czy user zamknie reklamą krzyżykiem?”). Uwaga: korelacja między tym taskiem a CTRem jest niska, więc ważne jest tutaj dobranie odpowiednich wag do funkcji straty, żeby nie zrobić krzywdy predykcji CTRa
  2. wyjście też mające ocenić CTR, ale tym razem labelem jest output z większego modelu (czyli jest to Distillation).