https://arxiv.org/pdf/2103.10697.pdf
Takeaways:
- W przypadku CNN wykorzystywane są dwa inductive biases: 1) im bliżej siebie są dwa piksele tym są bardziej powiązane 2) siec powinna zachowywać się tak samo niezależni od miejsca na obrazku (weight sharing)
- self-attention-based vision models (vision transformers) są pozbawione inductive biases z CNNów - przez co działają trochę lepiej niż CNN, ale potrzebują znacznie większego datasetu
- jak to pogodzić? Wbudować w transformera powyższe biasy, ale z “miękkiej” rezygnacji z nich jeśli model nauczy się robić coś lepiej
- Cordonnier et al wykazali, że multi-head positional self attention layer może wyrazić dowolną warstwę konwolucyjną (czyli CNN jest szczególnym przypadkiem transformera)