次元削減(UMAP / t-SNE / SOM)

高次元のword-embeddingsや特徴ベクトルを、構造を保ったまま 2〜3 次元へ落として可視化・解析する手法群。

t-SNE

高次元空間での点同士の近傍関係(類似度)を確率分布として表し、低次元でその分布が再現されるよう配置する非線形次元削減。クラスタ可視化に強い。アニメ作品の埋め込み可視化など、推薦・コンテンツ分析での可視化に使われる。

UMAP(Uniform Manifold Approximation and Projection)

t-SNE 同様の次元削減手法だが、(1)リーマン多様体(≒距離空間)の推定、(2)距離空間の Fuzzy Topological 表現、(3)次元削減、という位相幾何学的な枠組みに基づく。t-SNE より高速で大域構造の保存に優れる傾向。Sentence-BERT で得たアニメタイトルの埋め込みを UMAP で 2 次元化し Plotly で描画する、といった実用に使う。VLA 研究でもエンボディメント非依存表現の可視化(LAP)に t-SNE が使われる。

自己組織化マップ(SOM)

教師なし学習でデータをクラスタリングし、近いデータが近い位置に来るよう 2 次元グリッド上へ写像するニューラルネットの一種。

関連