O co chodzi w takiej aproksymacji?
Załóżmy, że chcemy zrobić gradient descent optymalizując jakąś wartość oczekiwaną zmiennej losowej. Ale tę wartość oczekiwaną trudno jest policzyć, stąd niemożliwe jest normalne policzenie gradientu.
Zamiast tego w każdej iteracji obserwujemy konkretną realizację zmiennej losowej. Na podstawie tej realizacji tworzymy wzór na “stochastyczny gradient descent” (czyli na aktualizację wag), tak, że w wartości oczekiwanej aktualizacja wag jest taka sama jak aktualizacja wag na podstawie wartości oczekiwanej.
Przykładem jest metoda Gradient Bandit Algorithm oraz dowód na wzór 2.12 z książki Reinforcement Learning An introduction (str. 38-40).
Metoda ta może być pomocna dla problemów z dziedziny Reinforcement Learning, gdzie znamy wartość z konkretnej realizacji (konkretny reward), ale nie znamy wartości oczekiwanej.