Jest to typ algorytmu z dziedziny Reinforcement Learning.

Metoda jest on-policy gdy próbujemy poprawić metodę, która została użyta do podjęcia decyzji.

Metoda jest off-policy gdy próbujemy poprawić politykę inną niż ta, która jest używana do podejmowania decyzji podczas interakcji ze środowiskiem. Politykę, którą używamy do podjęcia akcji nazywamy behavioral policy, a tą którą optymalizujemy target policy. Metody off-policy często mają większą wariancję i wolniej zbiegają niż metody on-policy; ale za to mają wiele innych zalet.

Coverage assumption - żeby wnioskować coś na temat target policy wymagane jest, żeby każda akcja z target policy była również wykorzystana w behavioral policy.

Off-policy prediction via Importance Sampling

Importance sampling

Dwa rodzaje:

  • ordinary importance sampling (średnia zwykła) - duża wariancja, unbiased
  • weighted importance sampling (średnia ważona) - mała wariancja, zbiasowane

Źródło: Reinforcement Learning An introduction