BERT

transformer のエンコーダを用いた事前学習言語モデル。attention-mechanism として Scaled Dot-Product Attention を使い、Positional Encoding で語順を表現する。双方向の文脈を捉える事前学習により、分類・固有表現抽出・質問応答などの下流タスクへ転移できる。

使い方の実例

  • 埋め込み取得: Sentence-BERT に文(例: アニメタイトル)を通してword-embeddingsを得て、dimensionality-reduction(UMAP)で可視化する。
  • チャットボット推論: Encoder で mem = encode(src, mask)(形状 (1,12,768))を作り、Decoder が下三角マスク(subsequent_mask)で自己回帰的にトークンを生成、generate で語彙(32000)上の確率に射影して argmax で次トークンを選ぶ、という pytorch 実装でテンソル形状を追える。
  • 質問応答(QA): BERT / DeBERTa 系がよく使われる。

関連