Zamiast zwykłego avg pooling po wyjściu np. z transformera można wykorzystać atencję. Autorzy w STAR Sparse Transformer-based Action Recognition proponują Context-Aware pooling, tzn. robimy najpierw avg pooling, na to nakładamy warstwę dense z nieliniowością, np. tanh. Wynikowy wektor porównujemy z początkowymi wektorami za pomocą inner-product uzyskując wagi. Mając wagi robimy średnią ważoną początkowych wektorów. Źródło: STAR Sparse Transformer-based Action Recognition