2019 年度実施状況報告書

実ロボットにおける自律的な軌道計画を実現する階層型深層強化学習の開発

研究課題

研究課題/領域番号	19K20370
研究機関	九州工業大学
研究代表者	長隆之九州工業大学, 大学院生命体工学研究科, 准教授 (50804663)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	軌道最適化 / ニューラルネットワーク / 動作計画
研究実績の概要	本研究では、実ロボットに適用可能な、複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発することを目標としている．本研究においては、タスクを実行するための多様な解を見つけ出し、それぞれをオプションとして使い分けることが必要となる。当該年度では、階層型強化学習の考え方を利用した、多様な解を見つけ出す軌道最適化の手法を開発した。この手法では、目的関数の多峰性に着目し、拘束条件を満たす複数の解を見つけ出すことができる。この手法で行っている処理は、実行可能な軌道のなす空間の離散的な潜在表現を学習していることに相当する。また、開発した手法を使って自動生成した多様な軌道を用い、様々な軌道をモデル化するニューラルネットワークのアーキテクチャを考案した。さらに、無限個の解が存在するような最適化問題において、解のなす空間の連続的な潜在表現を学習することによって、多様な解をモデル化する手法を開発した。これらの手法は、今後、階層型強化学習においてオプションとなる方策を学習するうえで利用することができる。また、実ロボットにおける動作検証を行う準備として、デンソーウェーブ社製の協働ロボットCobottaを購入し、ダイレクトティーチングによる軌道の計測や、リアルタイムで動作指令を送るためのソフトウェアを構築した。これらのシステムを用いて、次年度以降に実ロボットを用いた本格的な実験を行っていく。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究で必須となる、実ロボットで実行可能な多様な解を見つけ出す、という研究課題を解決できたという点で、順調に進んでいる。また、多様な軌道を一つのモデルで表現するためのニューラルネットワークの構造についても、見通しを立てることができた。さらに、実ロボットを用いた実験をするための準備を整えることができた。
今後の研究の推進方策	当初の計画の通りに研究が進展していることから、予定通りに研究を進める。当該年度に開発した手法を深層強化学習に適用していく方法について検討していく。
次年度使用額が生じた理由	若手研究における独立基盤形成支援（試行）により、より複雑なタスクを実現するために必要な２台目のロボットを購入する費用として150万円の物品費が得られたが、研究の進捗状況を鑑みて、当該年度に２台目のロボットを購入する必要がないと考えたため、当該年度の購入を見送った。次年度に、この150万円をもちいて２台目のロボットを購入し、複雑なマニピュレーションのタスクを実行するためのシステムを構築する予定である。

研究成果
(7件)

すべて 2020 2019 その他

すべて雑誌論文 (2件) (うち国際共著 2件、査読あり 2件) 学会発表 (3件) (うち国際学会 2件、招待講演 1件) 備考 (2件)

[雑誌論文] Multimodal Trajectory Optimization for Motion Planning2020
- 著者名/発表者名
  Takayuki Osa
- 雑誌名
  
  The International Journal of Robotics Research
  
  巻: 39 ページ: 1,19
- DOI
  10.1177/0278364920918296
- 査読あり / 国際共著
[雑誌論文] Hierarchical Stochastic Optimization with Application to Parameter Tuning for Electronically Controlled Transmissions2020
- 著者名/発表者名
  Hiroyuki Karasawa, Tomohiro Kanemaki, Kei Oomae, Rui Fukui, Masayuki Nakao, Takayuki Osa
- 雑誌名
  
  IEEE Robotics and Automation Letters
  
  巻: 5 ページ: 628, 635
- DOI
  10.1109/LRA.2020.2965085
- 査読あり / 国際共著
[学会発表] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics2019
- 著者名/発表者名
  Johannes Ackerman, Takayuki Osa, Masashi Sugiyama
- 学会等名
  NeurIPS 2019 Deep Reinforcement Learning Workshop
- 国際学会
[学会発表] How should we design a robot learning system?2019
- 著者名/発表者名
  Takayuki Osa
- 学会等名
  Workshop on Robot Learning: Control and Interaction in the Real World, NeurIPS 2019
- 国際学会 / 招待講演
[学会発表] Trajectory optimization via density estimation2019
- 著者名/発表者名
  Takayuki Osa
- 学会等名
  第37回日本ロボット学会学術講演会
[備考] 九州工業大学　長研究室ホームページ
- URL
  http://www.brain.kyutech.ac.jp/~osa/
[備考] 九州工業大学研究者詳細ページ
- URL
  https://hyokadb02.jimu.kyutech.ac.jp/html/100001202_ja.html

2019 年度 実施状況報告書

実ロボットにおける自律的な軌道計画を実現する階層型深層強化学習の開発

研究代表者

長 隆之 九州工業大学, 大学院生命体工学研究科, 准教授 (50804663)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Multimodal Trajectory Optimization for Motion Planning2020

著者名/発表者名

雑誌名

DOI

[雑誌論文] Hierarchical Stochastic Optimization with Application to Parameter Tuning for Electronically Controlled Transmissions2020

著者名/発表者名

雑誌名

DOI

[学会発表] Reducing Overestimation Bias in Multi-Agent Domains Using Double Centralized Critics2019

著者名/発表者名

学会等名

[学会発表] How should we design a robot learning system?2019

著者名/発表者名

学会等名

[学会発表] Trajectory optimization via density estimation2019

著者名/発表者名

学会等名

[備考] 九州工業大学 長研究室ホームページ

URL

[備考] 九州工業大学研究者詳細ページ

URL

2019 年度実施状況報告書

長隆之九州工業大学, 大学院生命体工学研究科, 准教授 (50804663)

[備考] 九州工業大学　長研究室ホームページ