強化学習

エージェントが環境との相互作用を通じ、報酬を最大化する方策を試行錯誤で学習する枠組み。教師あり学習と異なり正解ラベルではなく報酬信号から学ぶ。

主要トピック

  • DQN(Deep Q Network): Q 関数を深層ネットで近似。CartPole / マリオ(OpenAI Gym)などのベンチで実装される。
  • Policy Gradient: 方策を直接パラメータ化し勾配で最適化。
  • Experience Replay: 過去の経験をバッファに貯めて再利用しサンプル効率と安定性を高める。Prioritized Experience Replay、Large Batch Experience Replay (LaBER) などの改良がある。
  • 応用例: ゲームのバランス調整(自動チューニング)など。

LLM ポストトレーニングとの接続

RLHF(人間フィードバックからの強化学習)は SFT → 報酬モデル学習 → PPO による方策最適化の 3 段構成。論文「All Roads Lead to Likelihood」は、DPO(オフライン最尤)とオンライン RL が理想条件では情報幾何的に等価であることを証明しつつ、実務でオンライン RL が勝る理由を生成・検証ギャップ(検証は生成より計算論的に容易)で説明する。小さく学習しやすい検証器(報酬モデル)を作り探索空間を縮小する「適切な方策学習」が鍵。

ロボティクスでの位置づけ

VLA の主流は模倣学習(デモからの教師あり)だが、realtime-vla の速度適応など一部で RL の適用が検討される(現状はサンプル効率で人間によるデータ収集に劣る)。

関連