Każdy element w wektorze ma przypisane 3 wektory: (query), (key), (value). Robimy dot-product query pierwszego elementu ze wszystkimi kluczami, normalizując ją i dodatkowo nakładając softmax. W ten sposób dostajemy wektor (tej samej długości co wektor oryginalny), który przechowuje wagi mówiące o podobieństwie do kluczy. Używając tego wektora wagujemy wektory otrzymując nową wartość dla pierwszego elementu oryginalnego wektora. I tak dla wszystkich elementów w wektorze.

Źródło: Attention Is All You Need