Jesteśmy w stanie , wykonujemy akcję ze zbioru dostępnych akcji. Przechodzimy do stanu , ale to w jakim stanie się znajdziemy jest probabilistyczne, tzn. akcja nie determinuje , wpływa jedynie na rozkład prawdopodobieństwa stanów w jakim możemy się znaleźć. Ponadto po wykonaniu akcji i znalezieniu się w stanie dostajemy pewien reward.

Jeśli w każdym stanie jest tylko jedna akcja do wykonania i reward jest zawsze taki sam to Markov Decision Process redukuje się do Markov chain.

Cechą szczególną tego procesu jest to, że p-stwo kolejnego stanu i reward zależy tylko od poprzedniego stanu oraz akcji. Stan więc musi zawierać w sobie opis wcześniejszych interakcji agent-środowisko, które wpływają na przyszłość (do stanu można napakować mnóstwo rzeczy). Źródło: Reinforcement Learning An introduction