https://s.yimg.com/ge/labs/v2/uploads/kdd20122.pdf

Publikacja adresuje CTR, CVR prediction problem.

Mają na tyle mało danych o konwersjach i sygnał w low-level features jest tak słaby, że nie potrafili wytrenować sensownego modelu na podstawie takich cech.

Proponują wprowadzenie 3 grup:

  1. userzy, których można poklastrować
  2. strony publisherów, które mają pewną hierarchię, np. “typ wydawcy” (newsy, marketplace etc.) “konkretny wydawca” “strona wydawca”
  3. kampanie, które też mają taką hierarchię, np. “industry sklepu” “sklep” “kampania sklepu” “konkretna reklama”

Dla każdej grupy powyżej możemy stworzyć drzewo, gdzie w liściu jest najbardziej szczegółowy label (np. “konkretna reklama”), a w korzeniu najmniej szczegółowy label (czyli “wszystko”). Drzewo dla userów ma tylko dwa poziomy - korzeń i klastry userów.

Następnie dla każdej z 3 grup powyżej, dla każdego węzła w drzewie, możemy liczyć liczbę konwersji i liczbę impresji - ich iloraz daje estymacje CVR dla węzła.

Następnie stworzony został model regresji liniowej, gdzie cechami są estymacje CVRów z każdego poziomu z każdej grupy.