https://arxiv.org/pdf/2012.01767.pdf
Twierdzą, że sklep przypisuje konwersję do usera, a w obecnych rozwiązaniach przypisujemy tę konwersję do ostatniej klikniętej reklamy.
Przypadek motywacyjny: wyobraźmy sobie uproszczony przypadek, że przed konwersją user musi zrobić dwa displaye po sobie, A i B. Decyzja zakupowa następuje w momencie A, ale display B musi zawsze wystąpić po A. Jeśli nastąpi tylko A to nie będzie konwersji. Atrybucja, w której przypisujemy konwersję do ostatniego displaya (czyli do B) będzie niedoszacowywać A, przez co ogólnie będziemy tracić na konwersjach.
Autorzy podnoszą, że sposób przypisania konwersji do displaya podczas uczenia jest niezależny od sposobu przypisywania konwersji przez reklamodawcę. Motywują to tym, że w przypadku motywacyjnym w ogóle nie rozpatrują jakim typem atrybucji posługuje się reklamodawca.
Moja uwaga: Moim zdaniem powyższy akapit jest nieprawdziwy, ponieważ nas nie tylko interesuje event konwersji, ale interesuje nas to czy dostaniemy z tej konwersji pieniądze. Jeśli przegramy aukcję na display B, to ktoś inny dostanie pieniądze za konwersję (w przypadku atrybucji last-click). Autorzy zdają się zakładać, że jeśli my nie zabiddujemy i nie pokażemy displaya to user tego displaya mieć nie będzie - moim zdaniem jest to błędne założenie, bo jeśli my nie zrobimy displaya to z dużym prawdopodobieństwem zrobi to inny bidder.
Uwaga: my w WP w ogóle nie mamy cech opartych na historii oglądnięć reklam usera!!!! TODO
“myopic optimal” = optymalny jeśli w przyszłości nie będzie więcej możliwości próby (zabidowania).
Ich algorytmu jest myopic optimal (ale teza dotyczy second-price auction!!!!)
Atrybucja last-click zależy od przyszłości, tzn. jest zależna od p-stwa wystąpienia niektórych zdarzeń w przyszłości, a ich rozwiązanie nie jest.
Reward to funkcja która ocenia historię usera. Czyli jeśli był klik, klik, klik to reward=0; jeśli był klik, klik+transkacja to reward=1; jeśli był klik, klik+transakcja, klik+transakcja, klik to reward=2.
Valuation to predykcja modelu.
Label attribution to funkcja rozbijająca reward, tzn. dystrybuująca reward to konkretnych, pojedynczych ad requestów. W zwykłym last-clicku dla historii klik, klik+transakcja, klik+transakcja, klik to valuation to 0, 1, 1, 0.
Ale czy to zachowa skalibrowanie modelu?#tau