Drag-and-Drop LLMs (Prompt-to-Weights)

ラベルなしの数個のプロンプトのみから、勾配降下を一切介さず単一フォワードパスでタスク固有の LoRA 重みを生成する手法 (arXiv:2506.16406)。モデル適応を「最適化の問題」から「生成の問題」へ再定義した。

中核アイデア

  • プロンプトを タスクの指紋 (fingerprint) とみなし、高次元の重み空間へマッピング。
  • LoRA アダプタの本質はその学習プロンプトの関数だという洞察に基づき、勾配降下が重みを「引き寄せる (drag)」過程をパラメータジェネレータで模倣。
  • ニューラルネットの重み自体を「生成可能なデータモダリティ」として扱う。

アーキテクチャ

カスケード型ハイパー畳み込みデコーダ (Cascaded Hyper-convolutional Decoder)

  1. 凍結した軽量テキストエンコーダ (RoBERTa-base / Sentence-BERT 等) でプロンプトバッチを条件埋め込みに圧縮。
  2. ハイパー畳み込みブロック群(幅・高さ・レイヤー間の 3 モジュール)が埋め込みを段階的に拡張し LoRA 行列を再現。
  3. MSE 損失で真のチェックポイント重みとの誤差を最小化。

学習は多様なドメインの LoRA チェックポイント数千個を集め、プロンプトと重みをランダムにペアリングして汎化を促す。

性能・効率

  • ARC/Math-Vision/HellaSwag 等でベース LLM を上回り、学習済み LoRA 平均比で最大 +30%(ゼロショット)。
  • 0.5B〜7B でスケーラブル。7B でも重み生成は約 0.73 秒、メモリ約 20.48GB。ファインチューニング比 最大 12,000 倍高速

限界

  • 学習に使った LoRA チェックポイントの多様性に性能が制約され、未知ドメインで精度低下。フルファインチューニングには性能の天井で劣る。
  • エンコーダの 512 トークン入力長制限。学習データのバイアス継承リスク。

関連手法との対比

  • ICL (In-Context Learning): トークンコスト・推論遅延を伴う。DnD はタスク知識を重みに焼き付け推論時は例示不要。
  • Text-to-LoRA (T2L): 自然言語のタスク記述に依存。DnD はラベルなしデータサンプルそのものを使う。
  • RPG (Recurrent Diffusion): 反復サンプリングで遅く画像認識向け。DnD は単一パス畳み込みで言語モデルに特化。

関連