Wprowadzają koncept transformera. Używają Scaled Dot-Product Attention, Self attention.

Istotne jest to, że Enkoder przekłada -elementowe wejście na elementowe wyjście (zakodowane). Później, Dekoder, przekłada tak zakodowane dane na wyjście. Dekoder różni się od Enkodera tylko tym, że dekoduje słowo po słowie i ma dodatkową atencję, która patrzy na wyjścia z Enkodera.

1 and the input for position t. This inherentlysequential nature precludes parallelization within training examples, which becomes critical at longersequence lengths, as memory constraints limit batching across examples . Recent work has achievedsignif show annotation

symbols one element at a time. A t each step the model is auto-regressive[10], consuming the previously generated symbols as additional input when generating the nex t.The Transformer follows this o show annotation

ttention computes the compatibil i ty function using a feed-forward show annotation