2017 年度実施状況報告書

階層型多目的強化学習を用いた脚ロボットの歩容自律生成

研究課題

研究課題/領域番号	17K12759
研究機関	奈良先端科学技術大学院大学
研究代表者	小林泰介奈良先端科学技術大学院大学, 情報科学研究科, 助教 (10796452)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	知能ロボティックス / 強化学習 / 多目的最適化 / 歩行
研究実績の概要	本研究は，脚ロボットの歩容運動を階層的な多目的最適化問題として捉えた，歩容の自律学習を目的としている．この技術の確立により，物理的な制約やトレードオフを陽に考慮した学習が可能となり，生物のような自然な歩容生成が期待できる．平成29年度では，1)動力学シミュレーションにおける強化学習環境の構築と，2)要素技術となるActor-Critic強化学習アルゴリズムの開発に重点を置いて研究を実施した．具体的には，1)について，動力学シミュレーション環境としてCoppelia Roboticsが開発・提供しているV-REPを用いて，簡易的な４脚ロボットモデルを開発した．また，強化学習アルゴリズムのベンチマーク環境としてOpenAIが開発・提供しているOpenAI Gymと同一のプロトコルでV-REPでの強化学習をテストできる環境を整備した．次に，2)について，移動速度やエネルギー効率といった同程度達成したい目的を同時に学習する際に陥りやすい局所解を回避するため，目的の大域的最適解を発見しうる優れた探索能力を持ったスチューデントのt分布を利用した方策の設計を行った．また，位置制御と力制御のような干渉してしまう目的を切り替えながら学習する際に，破滅的忘却を起こさずに一つずつ学習していくことを可能にするフラクタルネットワークを利用した学習器の設計を行った．これらの提案手法の有用性は構築したシミュレーション環境にて検証した．得られた成果に基いて査読無し国内会議で１件の発表を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の計画にあった歩容生成のための報酬設計など実施できなかった課題もあるが，その一方で今後の研究を円滑に進めるためのシミュレーション環境の構築や，最新の強化学習アルゴリズムすら未だ抱えていた本研究では避けては通れない課題を解決したため，おおむね順調に進展しているといえる．
今後の研究の推進方策	平成２９年度の進捗状況を踏まえ，平成３０年度は階層構造を有する強化学習アルゴリズムの開発に着手する．それに付随して，脚を位置制御すべきか力制御すべきかを判断する上位層において，その目的選択に必要とされる状態を選定する．また，脚ロボットの開発を進めるが，開発速度を優先して市販されている脚ロボットの購入も検討する．
次年度使用額が生じた理由	最新の強化学習についての情報収集を国際会議に参加せずにarXivで行ったため．その分は，市販の脚ロボットの購入にあてて開発速度を早める．

研究成果

(1件)

すべて学会発表 (1件)

[学会発表] 大域的最適解を目指すActor-Critic強化学習2017
- 著者名/発表者名
  小林泰介
- 学会等名
  日本ロボット学会学術講演会