Metoda z dziedziny Monte Carlo Methods (RL). Metoda taka sama jak Monte Carlo Exploring Starts (ES), ale zamiast Exploring starts używa epsilon greedy.
Ta metoda zbiega do optimum, tj. znajduję optymalną politykę spośród takich, które są epsilon-soft! Ale metoda ta nie jest optymalna, bo optymalna będzie ta, która nie używa randomizacji.