O co chodzi w takiej aproksymacji?

Załóżmy, że chcemy zrobić gradient descent optymalizując jakąś wartość oczekiwaną zmiennej losowej. Ale tę wartość oczekiwaną trudno jest policzyć, stąd niemożliwe jest normalne policzenie gradientu.

Zamiast tego w każdej iteracji obserwujemy konkretną realizację zmiennej losowej. Na podstawie tej realizacji tworzymy wzór na “stochastyczny gradient descent” (czyli na aktualizację wag), tak, że w wartości oczekiwanej aktualizacja wag jest taka sama jak aktualizacja wag na podstawie wartości oczekiwanej.

Przykładem jest metoda Gradient Bandit Algorithm oraz dowód na wzór 2.12 z książki Reinforcement Learning An introduction (str. 38-40).

Metoda ta może być pomocna dla problemów z dziedziny Reinforcement Learning, gdzie znamy wartość z konkretnej realizacji (konkretny reward), ale nie znamy wartości oczekiwanej.

Źródło: Reinforcement Learning An introduction