Transformer

2017 年に Google Research が “Attention Is All You Need” で発表した深層学習モデル。それまで主流だった recurrent-neural-network(RNN/LSTM)より少ない計算量で圧倒的精度を出し、自然言語処理のブレイクスルーを起こした。

特徴

RNN/LSTM の「逐次的に出力を計算しなければならない」 問題を克服し、attention-mechanism のみで構成することで並列化を容易にした。トランスダクション(系列→系列)モデルとして エンコーダ・デコーダ 構成をとる:

  • エンコーダ: 入力文 を表現 へ変換。
  • デコーダ: から単語 を出力。1 時刻 1 単語で、前時刻のデコーダ出力を現時刻の入力に使う(自己回帰)。

派生・応用

  • bert: エンコーダ系。Scaled Dot-Product / Multi-Head / Source-Target Attention と Positional Encoding を使う。
  • GPT 系: デコーダ系の自己回帰生成。
  • VLM / VLA: PaliGemma・Gemma・SmolLM2 等の Transformer バックボーンが pi0smolvla の中核。Vision Transformer(ViT)で画像をパッチ化して同じ系列処理に載せる。

関連