分散表現 / 単語埋め込み
自然言語処理(attention-mechanism や bert を含む)では単語を文字列のまま学習できないため、何らかのベクトルで表す必要がある。これを**分散表現(embedding)**という。意味的に近い語がベクトル空間で近くに配置されるよう学習する。
バリエーション
- 単語レベル: Word2Vec 系。周辺文脈から単語ベクトルを学習。
- 文書レベル: Doc2Vec。文書全体を 1 つのベクトルに埋め込む。
- 文脈付き埋め込み: Sentence-BERT など。bert に文を通して文脈を加味した埋め込みを得る。
活用
得られた高次元埋め込みは dimensionality-reduction(UMAP / t-SNE)で 2 次元化して可視化し、クラスタ構造を確認したり、類似文書検索・推薦に使う(例: アニメタイトルの埋め込みによる作品推薦)。VLA でも言語指示は CLIP / SigLIP / BERT 系エンコーダで固定長ベクトル化され、視覚・行動トークンと統合される。
関連
- bert / dimensionality-reduction / attention-mechanism
- _moc-ml-robotics(ml-robotics クラスタの atomic ノート群)