Attention(注意機構)
ある文中の単語を理解する際に、文中の他のどの単語に「注意」しているかを表すスコア。系列内(あるいは系列間)の要素同士の関連度を動的に重み付けし、文脈に応じた表現を作る。
主要な派生形
- Scaled Dot-Product Attention: クエリ・キーの内積をスケーリングして softmax で重みにする基本形。
- Multi-Head Attention: 複数の Attention を並列に計算し、異なる関係性を同時に捉える。
- Self-Attention: 同一系列内の要素間の Attention。並列計算が可能で系列長に対する逐次依存を解消する。
- Masked Self-Attention: デコーダ側で未来の解答を隠す(下三角マスク)。自己回帰生成で使う。
- Source-Target Attention: エンコーダ出力(source)とデコーダ(target)の間の Attention。
意義
Attention のみで構成された transformer(“Attention Is All You Need”, 2017)が、recurrent-neural-network(RNN/LSTM)の逐次計算 問題を克服し並列化を可能にした。bert では Multi-Head / Scaled Dot-Product / Source-Target-Attention などが使われる。
vla のアーキテクチャでも中心的で、視覚・言語・触覚トークンを自由に相互参照する非因果的 Attention(Tactile-VLA)や、Cross-Attention と Causal Self-Attention の交互配置(smolvla)として再利用される。
関連
- transformer / bert
- recurrent-neural-network
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)