Quartz 4

Home

❯

ML

❯

DL

❯

Cross attention

Cross attention

Sep 23, 20251 min read

Analogia do self-attention, jednak tutaj mamy dwie sekwencje S1​ i S2​. W Scaled Dot-Product Attention key (K) i value (V) liczymy z sekwencji S1​, a query (Q) z sekwencji S2​.

Użyte w Attention Is All You Need (ale wtedy jeszcze nie nazywane cross-attention) w dekoderze transformera gdy odtwarzany jest przetłumaczony tekst:

Źródło: Cross attention in Transformer Architecture


Graph View

Backlinks

  • Self attention

Created with Quartz v4.4.1 © 2025

  • GitHub
  • Discord Community