https://dl.acm.org/doi/abs/10.1145/3627673.3680107
Wyznaczanie prawdopodobieństwa wygranej w zależności od ceny
Zakres cen, którymi biddujemy, dzielimy na interwałów. Dla każdego interwału mamy jednego bandytę! Każdy bandyta zlicza ile było wygranych i przegranych aukcji.
Zdarzenie wygrania aukcji modelowane jako Rozkład Bernoulliego, którego parametr pochodzi z Rozkładu Beta, którego parametry szukamy.
Obserwacja: jeśli ramię wygrało, to możemy uznać, że wszystkie ramiona wygrywają i zaktualizować im wszystkim parametry . Jeśli ramię przegrało - analogicznie. Dzięki temu po wygraniu/przegraniu jednej aukcji możemy zaktualizować więcej niż jednego bandytę.
Wybór bandyty, którym chcemy zagrać odbywa się w sposób przypominający UCB, czyli gramy tym bandytą, który ma najwyższy górnym przedziale ufności pomnożony przez funkcję nagrody.
Prawdopodobnie na produkcji ten proces dla losowych bid requestów sampluje, odpowiadając tylko po to, żeby poznać win-ratio, bez zwracania uwagi na wartość bid-requestu.
Uwaga: podczas działania algorytmu nie jest brana pod uwagę szacowana przez nas wartość bid-requestu! Autorzy publikacji tłumaczą to tym, że zależy im na znalezieniu ceny rynkowej, na którą nie wpływa to, co my aktualnie sądzimy o tym bid-requeście. Moim zdaniem to nie jest dobre podejście, bo to tak jak gdyby wyznaczać cenę rynkową produktów w sklepie odzieżowym z pominięciem informacji o kategorii produktu. Czyli wyznaczamy cenę rynkową worka produktów, w którym są i skarpetki i płaszcze. Dużo skuteczniej działałoby wyznaczanie ceny rynkowej skarpetek i płaszczy osobno, czyli z podziałem na tanie i drogie produkty (a w RTB: z podziałem na tanich i droższych użytkowników). Być może łatwo możnaby rozszerzyć zaproponowany mechanizm przez posiadanie bandytów per przecięcie, np. podzielenie przedziału możliwych wartości bid requestu na interwałów, i dla każdego interwału posiadanie bandytów, mielibyśmy wtedy bandytów.
Obliczanie optymalnej wartości bida
Mając win probability z poprzedniego akapitu maksymalizują surplus tak jak w Bid shading by win-rate estimation and surplus maximization