https://dl.acm.org/doi/abs/10.1145/3627673.3680107

Wyznaczanie prawdopodobieństwa wygranej w zależności od ceny

Zakres cen, którymi biddujemy, dzielimy na $K$ interwałów. Dla każdego interwału mamy jednego bandytę! Każdy bandyta zlicza ile było wygranych i przegranych aukcji.

Zdarzenie wygrania aukcji modelowane jako Rozkład Bernoulliego, którego parametr pochodzi z Rozkładu Beta, którego parametry szukamy.

Obserwacja: jeśli ramię $k$ wygrało, to możemy uznać, że wszystkie ramiona $k + 1, k + 2, ...$ wygrywają i zaktualizować im wszystkim parametry $α, β$ . Jeśli ramię $k$ przegrało - analogicznie. Dzięki temu po wygraniu/przegraniu jednej aukcji możemy zaktualizować więcej niż jednego bandytę.

Wybór bandyty, którym chcemy zagrać odbywa się w sposób przypominający UCB, czyli gramy tym bandytą, który ma najwyższy górnym przedziale ufności pomnożony przez funkcję nagrody.

Prawdopodobnie na produkcji ten proces dla losowych bid requestów sampluje, odpowiadając tylko po to, żeby poznać win-ratio, bez zwracania uwagi na wartość bid-requestu.

Uwaga: podczas działania algorytmu nie jest brana pod uwagę szacowana przez nas wartość bid-requestu! Autorzy publikacji tłumaczą to tym, że zależy im na znalezieniu ceny rynkowej, na którą nie wpływa to, co my aktualnie sądzimy o tym bid-requeście. Moim zdaniem to nie jest dobre podejście, bo to tak jak gdyby wyznaczać cenę rynkową produktów w sklepie odzieżowym z pominięciem informacji o kategorii produktu. Czyli wyznaczamy cenę rynkową worka produktów, w którym są i skarpetki i płaszcze. Dużo skuteczniej działałoby wyznaczanie ceny rynkowej skarpetek i płaszczy osobno, czyli z podziałem na tanie i drogie produkty (a w RTB: z podziałem na tanich i droższych użytkowników). Być może łatwo możnaby rozszerzyć zaproponowany mechanizm przez posiadanie $K$ bandytów per przecięcie, np. podzielenie przedziału możliwych wartości bid requestu na $P$ interwałów, i dla każdego interwału posiadanie $K$ bandytów, mielibyśmy wtedy $K \cdot P$ bandytów.

Obliczanie optymalnej wartości bida

Mając win probability z poprzedniego akapitu maksymalizują surplus tak jak w Bid shading by win-rate estimation and surplus maximization

Quartz 4

Explorer

A Bayesian Multi-Armed Bandit algorithm for Bid Shading in Online Display Advertising

Wyznaczanie prawdopodobieństwa wygranej w zależności od ceny

Obliczanie optymalnej wartości bida

Graph View

Table of Contents

Backlinks