強化学習入門

動機

PDFを見つけた, 強化学習を知りたい

簡単のため離散時間を想定

20x20の迷路を考えると各マスは上下左右のうち1-3個壁がある or ないで16-2通り, 状態空間は

S = {m \in Z^{400} ∣ 0 \leq m \leq 13}

行動は上下左右選べるので

A = {0, 1, 2, 3}

狙っている(適当な数字のプレースホルダーとして便利).

ベルマン方程式: 強化学習の基本公式. 報酬を無限時間まで足し合わせると発散するので時刻に応じた係数(割引率) $γ \in R_{0 < γ < 1}$ をかける.

V^{π} (s) = E (n = t \sum \infty γ^{n - t} r_{n}; s_{t} = s)

価値とはその時刻以降で得られうる報酬の合計の期待値.

V^{π} (s) = a \in A \sum π (a ∣ s_{t}) Q^{π} (s, a)

各行動での期待報酬を方策を重みとしてかけ, 足したもの

状態遷移確率 $P (s_{t + 1} ∣ s_{t}, a_{t})$ を用いて, 漸化式にできて

V^{π} (s_{t}) = a \in A \sum s_{t + 1} \in S \sum π (a ∣ s_{t}) P (s_{t + 1} ∣ s_{t}, a) (r_{t} + γ V^{π} (s_{t + 1}))

状態 $s$ で行動 $a$ をとった時の価値 = E(その行動の報酬 + 次状態で方策に従った行動の価値の和).

これの特殊な場合, 最適な方策 $π^{*}$ で行った時を考える.

$M$ 回のうち $m$ 回目の学習中, 状態列 ${s_{0}, \dots, s_{T}}$ に対して報酬列 ${r_{0}, \dots, r_{T}}$ を観測したとき,

初回訪問モンテカルロ法
- 状態 $s_{t}$ が初めて出たなら収益を
  $R (s_{t}) + = \sum_{t^{'} = t + 1}^{T} r_{t^{'}}, V (s_{t}) = \frac{1}{m} R$
  とする.
逐一訪問モンテカルロ法
- 任意の時刻 $s_{t}$ で収益 $R (s_{t})$ を導き, $V (s_{t})$ を評価
モデルフリーだと期待値が計算出来ないので状態価値 $V$ がわかっても行動が決定できない
- 状態行動価値 $Q$ を計算してそれが最大のを選ぶとする
  - -> タプル $(s, a)$ が実際に観測されないと計算できない
    - 開始点探査(Exploring Starts)の仮定: モンテカルロ-ES法
      - 観測されない(=出る確率が0)ことはないと仮定する
    - 方策オン型モンテカルロ制御
      - 決定的な方策でなく確率的な方策にして, 任意のタプルで $π (s, a) > 0$ を保証する
        
        確率的な方策 ex1. $ϵ$ -greedy法
        
        ex2. softmax法
    - 方策オフ型モンテカルロ制御