Rozważany problem
Mamy system do rankingowy, który dopasowuje reklamę do konkretnego usera. System jest multi-stage. Autorzy proponują jak poprawić ten system, skupiając się na poprawie modelu wczesnej fazy.
Co zaproponowali
Architektura sieci, którą używają: DLRM, ale z dwoma wieżami - jedna dla cech usera, druga dla cech reklamy.
Multi-task learning w RTB
Model wczesnej fazy, oprócz predykcji zwykłego CTRa, ma dodane jeszcze dwa wyjścia:
- Wyjście mówiące o dopasowania reklamy dla usera (mają jakiś swoją miarę dopasowania, która jest mixem bardziej granularnych labeli, np. “czy user zamknie reklamą krzyżykiem?”). Uwaga: korelacja między tym taskiem a CTRem jest niska, więc ważne jest tutaj dobranie odpowiednich wag do funkcji straty, żeby nie zrobić krzywdy predykcji CTRa
- wyjście też mające ocenić CTR, ale tym razem labelem jest output z większego modelu (czyli jest to Distillation).