https://ai.facebook.com/blog/computer-vision-combining-transformers-and-convolutional-neural-networks?utm_source=pocket_mylist

https://arxiv.org/pdf/2103.10697.pdf

Takeaways:

  • W przypadku CNN wykorzystywane są dwa inductive biases: 1) im bliżej siebie są dwa piksele tym są bardziej powiązane 2) siec powinna zachowywać się tak samo niezależni od miejsca na obrazku (weight sharing)
  • self-attention-based vision models (vision transformers) są pozbawione inductive biases z CNNów - przez co działają trochę lepiej niż CNN, ale potrzebują znacznie większego datasetu
  • jak to pogodzić? Wbudować w transformera powyższe biasy, ale z “miękkiej” rezygnacji z nich jeśli model nauczy się robić coś lepiej
  • Cordonnier et al wykazali, że multi-head positional self attention layer może wyrazić dowolną warstwę konwolucyjną (czyli CNN jest szczególnym przypadkiem transformera)