2020 年度実施状況報告書

実ロボットにおける自律的な軌道計画を実現する階層型深層強化学習の開発

研究課題

研究課題/領域番号	19K20370
研究機関	九州工業大学
研究代表者	長隆之九州工業大学, 大学院生命体工学研究科, 准教授 (50804663)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	軌道最適化 / 深層学習 / 動作計画
研究実績の概要	本研究では，実ロボットに適用可能な，複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発することを目標としている．本研究においては，タスクを実行するための多様な解を見つけ出し，それぞれをオプションとして使い分けることで，複雑な軌道を計画することを目指す．提案するシステムの実現には，多様な軌道を学習し，一つのニューラルネットワークでモデル化することが必要になる． 2年目となる当該年度では，軌道計画において解が無数に存在するような場合に，干渉を回避する無数の軌道を表現するニューラルネットワークを訓練する手法を開発した．障害物に干渉せずに動作開始時の姿勢から目標位置までロボットを動作させる軌道は無数に存在しうるが，提案手法は干渉のない無数の軌道がなす多様体を学習していると解釈することができる．また，滑らかな軌道を表現するためのモデルについて検討を行い，提案するモデルを用いることで，ニューラルネットワークの訓練に要する計算時間を短くできることを示した．開発された手法は，初年度に購入したロボット・マニピュレータの軌道計画に適用され，実ロボットに対して適用できることが確認された．また，無数の解を学習しておくことで，障害物などが追加された場合にも短時間で障害物を回避する軌道を発見できることを確認した．さらに，本研究で中心に考えているマニピュレーション以外にも，歩行動作の獲得などにも適用できる汎用的な深層強化学習アルゴリズムについても，無数の解を学習する方法について開発のめどを立てることができた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究開始時の研究計画では，最初の２年間において，実行可能な軌道のなす多様体を学習するアルゴリズムの構築と，その実ロボットへの適用を計画しており，この２点について，予定通り達成することができた．また，深層強化学習への拡張も並行して進んでおり，当初の計画通りに研究が進展している．
今後の研究の推進方策	当初の計画の通りに研究が進展していることから，予定通りに研究を進める．現在開発を進めている深層強化学習を階層型強化学習へと拡張していく．