2022 Fiscal Year Annual Research Report

Hierarchical Reinforcement Learning for Autonomous Motion Planning with Real Robots

Research Project

Project/Area Number	19K20370
Research Institution	The University of Tokyo
Principal Investigator	長隆之東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	深層強化学習 / 動作計画 / ロボット
Outline of Annual Research Achievements	本研究は，ロボットの複雑な軌道計画を学習できる深層強化学習アルゴリズムの開発を目標としていた．具体的には，タスクを実行するための多様な解を見つけ出し，それぞれを使い分けることで，複雑な軌道を計画することを目指した．最終年度である本年度は，多様な解を発見する深層強化学習アルゴリズムを開発し，国際雑誌において発表した．本研究では，多様な解を発見する深層強化学習を，状態行動空間の潜在表現を学習する問題として定式化し，多様な挙動を使い分けることで環境の変化に適応できることを示した．また，本研究で開発したアルゴリズムによって発見された多様な解を活用する方法の一つとして，協働型マルチエージェント強化学習において，多様な挙動を同時に訓練することにより，方策をロバスト化できることを示した．協働型マルチエージェント強化学習においては，協働する相手側の方策が変化すると，学習した方策がうまく機能しないことが知られている．そこで，本研究で開発した多様な解を発見する強化学習アルゴリズムと敵対的学習を組み合わせることで，ロバストな方策を協働型マルチエージェント強化学習において得ることができることを示した．さらに，昨年度までに開発された軌道計画法を改良し，実ロボットにおいて動的な物体を回避するためのオンライン軌道計画を実現することができることを示し，国内学会にて発表した．研究期間全体を通じて，多様な挙動を発見する軌道最適化アルゴリズムおよび深層強化学習アルゴリズムを構築することができ，実ロボットへの適用も行った．本研究の成果の一部は，ロボティクス分野でトップレベルの評価を得ているInternational Journal of Robotics Researchで研究期間中に2報発表された．研究最終年度には，国際学会および国際ワークショップに計3回招待講演に招かれ，国際的にも認知された．

Research Products
(6 results)

All 2023 2022

All Journal Article (1 results) Presentation (5 results) (of which Int'l Joint Research: 3 results, Invited: 3 results)

[Journal Article] Discovering diverse solutions in deep reinforcement learning by maximizing state?action-based mutual information2022
- Author(s)
  Osa Takayuki、Tangkaratt Voot、Sugiyama Masashi
- Journal Title
  
  Neural Networks
  
  Volume: 152 Pages: 90～104
- DOI
  10.1016/j.neunet.2022.04.009
[Presentation] Discovering diverse solutions in reinforcement learning2023
- Author(s)
  Takayuki Osa
- Organizer
  Workshop on Functional Inference and Machine Intelligence
- Int'l Joint Research / Invited
[Presentation] Dealing with the objective function with multiple extrema in robot learning2022
- Author(s)
  Takayuki Osa
- Organizer
  Conference on Robot Learning
- Int'l Joint Research / Invited
[Presentation] 動的障害物回避のための多峰性最適化を用いたオンライン軌道計画法2022
- Author(s)
  是澤真由、長隆之
- Organizer
  第40回日本ロボット学会学術講演会
[Presentation] What should we learn in a robot-learning system?2022
- Author(s)
  Takayuki Osa
- Organizer
  2nd RL-CONFORM Workshop at IEEE/RSJ International Conference on Intelligent Robots and Systems
- Int'l Joint Research / Invited
[Presentation] 深層強化学習による掘削動作の異なる土質へのfewshot adaptation2022
- Author(s)
  筬島直人、逢澤正憲、長隆之
- Organizer
  第40回日本ロボット学会学術講演会

2022 Fiscal Year Annual Research Report

Hierarchical Reinforcement Learning for Autonomous Motion Planning with Real Robots

Principal Investigator

長 隆之 東京大学, 大学院情報理工学系研究科, 准教授 (50804663)

Research Products

[Journal Article] Discovering diverse solutions in deep reinforcement learning by maximizing state?action-based mutual information2022

Author(s)

Journal Title

DOI

[Presentation] Discovering diverse solutions in reinforcement learning2023

Author(s)

Organizer

[Presentation] Dealing with the objective function with multiple extrema in robot learning2022

Author(s)

Organizer

[Presentation] 動的障害物回避のための多峰性最適化を用い たオンライン軌道計画法2022

Author(s)

Organizer

[Presentation] What should we learn in a robot-learning system?2022

Author(s)

Organizer

[Presentation] 深層強化学習による掘削動作の異なる土質へのfewshot adaptation2022

Author(s)

Organizer

長隆之東京大学, 大学院情報理工学系研究科, 准教授 (50804663)

[Presentation] 動的障害物回避のための多峰性最適化を用いたオンライン軌道計画法2022