Better computer vision models by combining Transformers and convolutional neural networks

Takeaways:

W przypadku CNN wykorzystywane są dwa inductive biases: 1) im bliżej siebie są dwa piksele tym są bardziej powiązane 2) siec powinna zachowywać się tak samo niezależni od miejsca na obrazku (weight sharing)
self-attention-based vision models (vision transformers) są pozbawione inductive biases z CNNów - przez co działają trochę lepiej niż CNN, ale potrzebują znacznie większego datasetu
jak to pogodzić? Wbudować w transformera powyższe biasy, ale z “miękkiej” rezygnacji z nich jeśli model nauczy się robić coś lepiej
Cordonnier et al wykazali, że multi-head positional self attention layer może wyrazić dowolną warstwę konwolucyjną (czyli CNN jest szczególnym przypadkiem transformera)

Quartz 4