• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

深層強化学習で非線形な制御が学習できるか~物理演算ゲームの学習を通じた検証~

Research Project

Project/Area Number 18H00543
Research Category

Grant-in-Aid for Encouragement of Scientists

Allocation TypeSingle-year Grants
Review Section 4110:Information science, computer engineering, human informaticsand, applied informatics related fields
Research InstitutionOita University

Principal Investigator

松木 俊貴  大分大学, 理工学部, 技術職員

Project Period (FY) 2018
Project Status Completed (Fiscal Year 2018)
Budget Amount *help
¥510,000 (Direct Cost: ¥510,000)
Fiscal Year 2018: ¥510,000 (Direct Cost: ¥510,000)
Keywords深層強化学習 / 非線形制御 / リザバコンピューティング
Outline of Annual Research Achievements

本研究では, 「目標軌道」ではなく, 報酬を最大化するという「目的」に基づいた制御則学習の実現可能性について調査するため, 物理演算ゲームタスクを深層強化学習によって学習させて検証を行った.
エージェントが学習するタスクとして, ボードをうまく傾けることによりボード上の球をゴールへと導くRoll-a-Ballと呼ばれるゲームを用いた. ボード上には落とし穴がランダムに出現し, 落ちるとエージェントには罰が与えられ, うまく避けながらゴールすると報酬が与えられる. このタスクではランダムに位置が変わる落とし穴の存在により事前に決まった軌道を生成することができず, また, 壁に衝突した際のバウンドなども考慮しつつ非線形に傾斜角を変えていく必要があることから, 本課題における制御則学習のタスクとして設定した. 上記のようなタスクに対し, エージェントの状態を入力としボードの傾斜角を出力とするニューラルネットワーク(NN)をActor-Criticと呼ばれる手法で学習した. タスク環境の非線形なダイナミクスの中で情報を処理し操作量を出力するためにリカレントニューラルネットワーク(RNN)と呼ばれる再帰構造を持つNNを用いた. さらに本研究では時間を遡る学習処理を伴わないため, 高速かつ安定的に学習ができ, パターン生成などの研究にも使われることの多いリザバネットワーク(RN)と呼ばれる特殊なRNNを中間層に導入した多層のNNを用いた.
当初の計画では環境の画像を直接NNに与えて学習を行う予定であったが, 上層から伝播してきた誤差信号をRNより下層へ伝播させて学習することが困難であった. しかし, RNに画像のような高次元の入力を直接与えることはできないため, 球, ゴール, 落とし穴などの座標, 相対速度, 相対距離, 相対角度といった事前処理済みの入力に切り替えて学習したところ学習に成功した. 今後, 下層の学習を実現する方法を検討することが課題として残った.

Report

(1 results)
  • 2018 Annual Research Report

URL: 

Published: 2018-04-23   Modified: 2020-03-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi