Taka polityka, która wybiera ruch, który aktualnie wydaje się najlepszy według statystyk, które do tej pory zebraliśmy. Źródło: Reinforcement Learning An introduction