Sytuacja, w której mamy model i dla każdej wagi jest inny learning rate. W przypadku modelu liniowego z cechami rzadkimi uzasadnione jest to tym, że jeśli jedna cecha była nie-zerowa często to mamy co do jej wagi większą pewność, więc learning rate może być mniejsza.
O tym temacie jest wprost napisane w :
Taki sam mechanizm, chociaż nie wprost, występuje w Web-scale bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine