https://arxiv.org/pdf/2002.02068

Generalnie zajmują się CTR, CVR prediction problem i Jak uczyć model gdy powoli spływają odpowiedzi.

W publikacji odwołują się do Modeling Delayed Feedback in Display Advertising, nawet używają podobnych oznaczeń.

Sytuacja jest taka, że dane pobierają zaraz przed uczeniem modelu, uczą na krótkim oknie. Kiedy pobierają dane nie spłynęły jeszcze wszystkie konwersje, co wprowadza bias podczas trenowania.

Ogólna idea polega po prostu na tym, że dane do uczenia są wagowane (Importance weighting) według stosunku p-stwa tego, że ogólnie wystąpi konwersja do p-stwa, że konwersja nastąpi w datasecie treningowym. Podają sposób na policzenie tego stosunku trochę nie wprost. Do estymacji tego stosunku wykorzystują też model (LightGBM)!

U nas nie bardzo przydatne, bo zupełnie inaczej podchodzimy do problemu - mamy dataset na dawnych danych, uczymy tylko na pełnych danych.