RNN / LSTM(再帰型ニューラルネット)

RNN(Recurrent Neural Network)

入力層から出力層まで一方通行の通常の NN と異なり、自己再帰する層を持つネットワーク。隠れ層に「記憶」として過去の時系列入力の情報が保持され、文章などの連続入力を扱える。時系列順に入力 を与えると予測確率ベクトル が出力され、隠れ状態 が更新される。活性化関数は tanh や ReLU。

機械翻訳(文章→翻訳文)や文章生成(会話文→応答文)といった生成モデルに使える。学習は BPTT(Backpropagation Through Time)で過去ステップの計算も使うが、再帰構造のため並列化できない・層が深くなると勾配消失するという欠点がある。

LSTM(Long Short-Term Memory)

RNN が長い系列を扱えない問題を、「ゲート」による情報の取捨選択で解決した派生。各ノードが入力ゲート・出力ゲート・忘却ゲートからなる LSTM Cell に置き換わり、ゲートの開閉をシグモイド関数で行うことで「忘却」が可能になる。各時間ステップを迂回するパス(セル状態)により逆誤差伝播時の勾配消失が低減される。GRU も同系統の改良。

Transformer による置換

RNN/LSTM の逐次計算 と勾配消失を、attention-mechanism のみで構成した transformer が克服し、NLP の主流が移った。初期のバイラテラル制御模倣学習(Bi-ACT の関連研究)は LSTM ベースだったが、画像を扱えずロバスト性に欠けたため act 系の Transformer に置き換わった。

関連