分散表現 / 単語埋め込み

自然言語処理(attention-mechanismbert を含む)では単語を文字列のまま学習できないため、何らかのベクトルで表す必要がある。これを**分散表現(embedding)**という。意味的に近い語がベクトル空間で近くに配置されるよう学習する。

バリエーション

  • 単語レベル: Word2Vec 系。周辺文脈から単語ベクトルを学習。
  • 文書レベル: Doc2Vec。文書全体を 1 つのベクトルに埋め込む。
  • 文脈付き埋め込み: Sentence-BERT など。bert に文を通して文脈を加味した埋め込みを得る。

活用

得られた高次元埋め込みは dimensionality-reduction(UMAP / t-SNE)で 2 次元化して可視化し、クラスタ構造を確認したり、類似文書検索・推薦に使う(例: アニメタイトルの埋め込みによる作品推薦)。VLA でも言語指示は CLIP / SigLIP / BERT 系エンコーダで固定長ベクトル化され、視覚・行動トークンと統合される。

関連