A Unified Knowledge-Distillation and Semi-Supervised Learning Framework to Improve Industrial Ads Delivery Systems

Rozwiązany problem: jak zrobić lepszy system rankujący reklamy.

Uwaga: starają się estymować np. CTR, ale nie ma nacisku na wycenę.

System rankujący reklamę w Meta jest wielu-etapowy (multi-stage). Tzn. że jest kilka modeli ułożonych w kaskadę od najprostszego (najszybszego) do najbardziej skomplikowanego (najwolniejszego). Każdy z nich filtruje zbiór reklam tak, że do kolejnego etapu przechodzi tylko TOP-k reklam z obecnego etapu.

Tradycyjnie w takim modelu multi-stage każdy etap uczony jest tylko na danych ground-truth, tzn. na reklamach faktycznie pokazanych użytkownikowi, dla których mamy etykiety mówiąc “czy kliknął”, “czy skonwertował”, itd. Skutek tego jest taki, że wcześniejsze etapy są uczone na znacznie innych danych niż te, które musi wyceniać na produkcji.

Bias / calibration

Jeśli model estymujący CTR jest unbiased (tzn. jego błąd predykcji $e \sim N (0, σ_{1}^{2}$ )) to wybierając najlepszą reklamę spośród $n$ kandydatów, predykcja dla tej najlepszej reklamy będzie zbiasowana!

Załóżmy, że prawdziwy CPM reklamy pochodzi z rozkładu normalnego $y_{i} \sim N (μ, σ^{2})$ . Niech $z_{i}$ to będzie zmienna losowa reprezentująca predykcję modelu. Model jest unbiased. Wtedy $z_{i} \sim N (μ, σ^{2} + σ_{1}^{2})$ .

Co jednak dzieje się na produkcji? Wybieramy top- $k$ reklam (u nas w szczególności $k = 1$ ), które pokazujemy użytkownikowi. Okazuje się, że reklama na pozycji $i$ (wśród posortowanych reklam po scorze z modelu, $i \leq k < n$ ) ma predykcję zbiasowaną, ponieważ: $E (z_{i} ∣ μ, σ^{2}, σ_{1}^{2}, n) = μ + σ^{2} + σ_{1}^{2} Φ^{- 1} (\frac{n - i - α + 1}{n - 2 α + 1})$ gdzie $α = 3.375$ , $Φ$ to CDF rozkładu normalnego.

Intuicyjnie: mimo, że model jest średnio skalibrowany na całej populacji, to dla części kalibracji niedoszacowuje, a dla części przeszacowuje. Więc, kiedy wybieramy top- $k$ reklam na podstawie predykcji, to naturalnie częściej wybieramy te, na których model przeszacował.

Rozwiązanie

Semi-Supervised Knowledge Distillation

W takiej wieloetapowej (multi-stage) predykcji model z kolejnego kroku ( $M_{j}$ ) jest nauczycielem dla modelu z kroku poprzedniego ( $M_{j - 1}$ ). Dlaczego? Bo $M_{j}$ jest dobrze skalibrowany na swoim datasecie, podczas gdy model $M_{j - 1}$ nie. Więc jak to w Distillation, model $M_{j - 1}$ trenujemy na labelach nie-binarnych pochodzących z modelu $M_{j}$ .

Feature Selection

Oprócz distillation (jak wyżej) to modele na wcześniejszym etapie mają mniej cech. W związku z tym mają również proces oparty na Perturbation Feature Importance, który pozwala im wybrać cechy do prostszego modelu.

Foundation Models

Dla modelu z ostatniego etapu robią Distillation z dużego foundation Model. Co więcej, student-model, mający przewidywać CTR, uczony jest multi-task w taki sposób, że dodajemy mu 1) dependent task (np. CVR, reachability; dependent task bierze predykowany CTR jako wejście do kolejnej warstwy) oraz 2) auxiliary task (np. czy kliknie w inną reklamę na tej stronie, ile czasu spędzi na stronie, itp.).

Quartz 4

Explorer

A Unified Knowledge-Distillation and Semi-Supervised Learning Framework to Improve Industrial Ads Delivery Systems

Bias / calibration

Rozwiązanie

Semi-Supervised Knowledge Distillation

Feature Selection

Foundation Models

Graph View

Table of Contents

Backlinks