Constraint Reinforcement Learning

Oprócz tego, że tak jak w zwykłym Reinforcement Learning szukamy takiej polityki $π$ aby maksymalizować sumę reward, to ta polityka musi spełniać pewne dodatkowe warunki.

Metody radzenia sobie z tym:

Constrained Policy Optimization

Źródło: Adapting Constrained Markov Decision Process for OCPC Bidding with Delayed Conversions

Quartz 4

Explorer

Constraint Reinforcement Learning

Graph View