BERT
transformer のエンコーダを用いた事前学習言語モデル。attention-mechanism として Scaled Dot-Product Attention を使い、Positional Encoding で語順を表現する。双方向の文脈を捉える事前学習により、分類・固有表現抽出・質問応答などの下流タスクへ転移できる。
使い方の実例
- 埋め込み取得: Sentence-BERT に文(例: アニメタイトル)を通してword-embeddingsを得て、dimensionality-reduction(UMAP)で可視化する。
- チャットボット推論: Encoder で
mem = encode(src, mask)(形状 (1,12,768))を作り、Decoder が下三角マスク(subsequent_mask)で自己回帰的にトークンを生成、generateで語彙(32000)上の確率に射影して argmax で次トークンを選ぶ、という pytorch 実装でテンソル形状を追える。 - 質問応答(QA): BERT / DeBERTa 系がよく使われる。
関連
- transformer / attention-mechanism / word-embeddings
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)