強化学習でマリオ
- マリオ1-1クリアRTA
- DQNで以下を変えてみる
- バッチサイズ(replay memoryから取り出すデータの個数)
- replay memoryのサイズ(最新 N 個)
- Fixed target QN へのパラメータ同期頻度
- 正解が常に変動するので学習が安定しない -> 正解を一定時間固定化する
- -greedy の制御(eps_controller)
- 割引率
- 報酬(評価関数の設計)
- DQNで以下を変えてみる
- GitHub - Kautenja/gym-super-mario-bros: An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES
- SMBのenv
- super-mario-bros-dqn/wrappers.py at master · roclark/super-mario-bros-dqn · GitHub
- CNNでDQNの実装
1-1の土管が超えられない
- 500ep位しか回していないので圧倒的に学習不足?
- 他動画では10000epとか回していた
- RLは1並列なので辛い
提出フォーム出来ていて, 2022-08-05 まで伸びた, やったね