Quartz 4

❯

❯

Cumulative regret

Cumulative regret

Sep 23, 20251 min read

Metryka używana do oceny algorytmów z dziedziny Contextual Multi-arm Bandit Problem.

To jest po prostu suma Regret wszystkich wykonanych akcji.

Źródło: A Practical Method for Solving Contextual Bandit Problems Using Decision Trees

Graph View

Backlinks

Contextual Multi-arm Bandit Problem
Linear Thompson sampling, Contextual Bandits
Thompson Sampling for Contextual Bandits with Linear Payoffs

Created with Quartz v4.4.1 © 2026

GitHub
Discord Community