強化学習でマリオ

マリオ1-1クリアRTA
- DQNで以下を変えてみる
  - バッチサイズ(replay memoryから取り出すデータの個数)
  - replay memoryのサイズ(最新 N 個)
  - Fixed target QN へのパラメータ同期頻度
    - 正解が常に変動するので学習が安定しない -> 正解を一定時間固定化する
  - $ϵ$ -greedy の制御(eps_controller)
  - 割引率 $γ$
  - 報酬(評価関数の設計)
GitHub - Kautenja/gym-super-mario-bros: An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES
- SMBのenv
super-mario-bros-dqn/wrappers.py at master · roclark/super-mario-bros-dqn · GitHub
- CNNでDQNの実装

1-1の土管が超えられない

提出フォーム出来ていて, 2022-08-05 まで伸びた, やったね