“self” oznacza tyle, że key (K), value (V) i query (Q) w Scaled Dot-Product Attention liczone jest na podstawie siebie samego, tzn. z każdego elementu sekwencji jest wyliczany jeden key, jeden value i jeden query. Przeciwieństwo Cross attention

Zalety:

  • bierze pod uwagę znacznie dłuższy zakres danych - w LSTMie informacja z danego słowa znikała po maksymalnie ok. 20 słowach, tutaj każde “słowo” widzi wszystkie słowa na raz!
  • szybsze niż tradycyjne sieci rekurencyjne, ponieważ przetwarzają informacje równolegle, a nie sekwencyjnie

Źródło: Attention Is All You Need