Cross attention

Analogia do self-attention, jednak tutaj mamy dwie sekwencje $S_{1}$ i $S_{2}$ . W Scaled Dot-Product Attention key (K) i value (V) liczymy z sekwencji $S_{1}$ , a query (Q) z sekwencji $S_{2}$ .

Użyte w Attention Is All You Need (ale wtedy jeszcze nie nazywane cross-attention) w dekoderze transformera gdy odtwarzany jest przetłumaczony tekst:

Źródło: Cross attention in Transformer Architecture

Quartz 4

Explorer

Cross attention

Graph View

Backlinks