Outline of Annual Research Achievements |
本研究では, 「目標軌道」ではなく, 報酬を最大化するという「目的」に基づいた制御則学習の実現可能性について調査するため, 物理演算ゲームタスクを深層強化学習によって学習させて検証を行った. エージェントが学習するタスクとして, ボードをうまく傾けることによりボード上の球をゴールへと導くRoll-a-Ballと呼ばれるゲームを用いた. ボード上には落とし穴がランダムに出現し, 落ちるとエージェントには罰が与えられ, うまく避けながらゴールすると報酬が与えられる. このタスクではランダムに位置が変わる落とし穴の存在により事前に決まった軌道を生成することができず, また, 壁に衝突した際のバウンドなども考慮しつつ非線形に傾斜角を変えていく必要があることから, 本課題における制御則学習のタスクとして設定した. 上記のようなタスクに対し, エージェントの状態を入力としボードの傾斜角を出力とするニューラルネットワーク(NN)をActor-Criticと呼ばれる手法で学習した. タスク環境の非線形なダイナミクスの中で情報を処理し操作量を出力するためにリカレントニューラルネットワーク(RNN)と呼ばれる再帰構造を持つNNを用いた. さらに本研究では時間を遡る学習処理を伴わないため, 高速かつ安定的に学習ができ, パターン生成などの研究にも使われることの多いリザバネットワーク(RN)と呼ばれる特殊なRNNを中間層に導入した多層のNNを用いた. 当初の計画では環境の画像を直接NNに与えて学習を行う予定であったが, 上層から伝播してきた誤差信号をRNより下層へ伝播させて学習することが困難であった. しかし, RNに画像のような高次元の入力を直接与えることはできないため, 球, ゴール, 落とし穴などの座標, 相対速度, 相対距離, 相対角度といった事前処理済みの入力に切り替えて学習したところ学習に成功した. 今後, 下層の学習を実現する方法を検討することが課題として残った.
|