Per-Coordinate Learning Rates

Sytuacja, w której mamy model i dla każdej wagi jest inny learning rate. W przypadku modelu liniowego z cechami rzadkimi uzasadnione jest to tym, że jeśli jedna cecha była nie-zerowa często to mamy co do jej wagi większą pewność, więc learning rate może być mniejsza.

O tym temacie jest wprost napisane w :

^fd72ac

Taki sam mechanizm, chociaż nie wprost, występuje w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine

Quartz 4

Explorer

Per-Coordinate Learning Rates

Graph View

Backlinks