Oprócz tego, że tak jak w zwykłym Reinforcement Learning szukamy takiej polityki aby maksymalizować sumę reward, to ta polityka musi spełniać pewne dodatkowe warunki.
Metody radzenia sobie z tym:
Źródło: Adapting Constrained Markov Decision Process for OCPC Bidding with Delayed Conversions