Attention
Attentionとはある文中の単語を理解する際に文中のほかのどの単語に注意しているかを表すスコアのことであり、

デコーダー側で使用されている Masked Self-Attentionは解答を隠すためにマスクしている。BERTではMulti-Head Attention, Scaled Dot-Product Attention, Source-Target-Attentionなどの派生形が使用されているが、
でとても詳しく説明されているので参照されたい。
Attentionとはある文中の単語を理解する際に文中のほかのどの単語に注意しているかを表すスコアのことであり、

デコーダー側で使用されている Masked Self-Attentionは解答を隠すためにマスクしている。BERTではMulti-Head Attention, Scaled Dot-Product Attention, Source-Target-Attentionなどの派生形が使用されているが、
でとても詳しく説明されているので参照されたい。