Quartz 4

Home

❯

ML

❯

RL

❯

Constraint Reinforcement Learning

Constraint Reinforcement Learning

Sep 23, 20251 min read

Oprócz tego, że tak jak w zwykłym Reinforcement Learning szukamy takiej polityki π aby maksymalizować sumę reward, to ta polityka musi spełniać pewne dodatkowe warunki.

Metody radzenia sobie z tym:

  • Constrained Policy Optimization

Źródło: Adapting Constrained Markov Decision Process for OCPC Bidding with Delayed Conversions


Graph View

Created with Quartz v4.4.1 © 2025

  • GitHub
  • Discord Community