https://s.yimg.com/ge/labs/v2/uploads/kdd20122.pdf
Publikacja adresuje CTR, CVR prediction problem.
Mają na tyle mało danych o konwersjach i sygnał w low-level features jest tak słaby, że nie potrafili wytrenować sensownego modelu na podstawie takich cech.
Proponują wprowadzenie 3 grup:
- userzy, których można poklastrować
- strony publisherów, które mają pewną hierarchię, np. “typ wydawcy” (newsy, marketplace etc.) → “konkretny wydawca” → “strona wydawca”
- kampanie, które też mają taką hierarchię, np. “industry sklepu” → “sklep” → “kampania sklepu” → “konkretna reklama”
Dla każdej grupy powyżej możemy stworzyć drzewo, gdzie w liściu jest najbardziej szczegółowy label (np. “konkretna reklama”), a w korzeniu najmniej szczegółowy label (czyli “wszystko”). Drzewo dla userów ma tylko dwa poziomy - korzeń i klastry userów.
Następnie dla każdej z 3 grup powyżej, dla każdego węzła w drzewie, możemy liczyć liczbę konwersji i liczbę impresji - ich iloraz daje estymacje CVR dla węzła.
Następnie stworzony został model regresji liniowej, gdzie cechami są estymacje CVRów z każdego poziomu z każdej grupy.