Jest to typ algorytmu z dziedziny Reinforcement Learning.
Metoda jest on-policy gdy próbujemy poprawić metodę, która została użyta do podjęcia decyzji.
Metoda jest off-policy gdy próbujemy poprawić politykę inną niż ta, która jest używana do podejmowania decyzji podczas interakcji ze środowiskiem. Politykę, którą używamy do podjęcia akcji nazywamy behavioral policy, a tą którą optymalizujemy target policy. Metody off-policy często mają większą wariancję i wolniej zbiegają niż metody on-policy; ale za to mają wiele innych zalet.
Coverage assumption - żeby wnioskować coś na temat target policy wymagane jest, żeby każda akcja z target policy była również wykorzystana w behavioral policy.
Off-policy prediction via Importance Sampling
Dwa rodzaje:
- ordinary importance sampling (średnia zwykła) - duża wariancja, unbiased
- weighted importance sampling (średnia ważona) - mała wariancja, zbiasowane