BERT

transformer のエンコーダを用いた事前学習言語モデル。attention-mechanism として Scaled Dot-Product Attention を使い、Positional Encoding で語順を表現する。双方向の文脈を捉える事前学習により、分類・固有表現抽出・質問応答などの下流タスクへ転移できる。

使い方の実例

埋め込み取得: Sentence-BERT に文（例: アニメタイトル）を通してword-embeddingsを得て、dimensionality-reduction（UMAP）で可視化する。
チャットボット推論: Encoder で mem = encode(src, mask)（形状 (1,12,768)）を作り、Decoder が下三角マスク（subsequent_mask）で自己回帰的にトークンを生成、generate で語彙（32000）上の確率に射影して argmax で次トークンを選ぶ、という pytorch 実装でテンソル形状を追える。
質問応答（QA）: BERT / DeBERTa 系がよく使われる。

Quartz 5

Explorer

BERT

BERT

使い方の実例

関連

Graph View

Table of Contents

Backlinks