Project/Area Number |
19K20370
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | The University of Tokyo (2022) Kyushu Institute of Technology (2019-2021) |
Principal Investigator |
Osa Takayuki 東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2020: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2019: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 強化学習 / 軌道計画 / ロボティクス / 深層強化学習 / 動作計画 / ロボット / 軌道最適化 / 深層学習 / ニューラルネットワーク |
Outline of Research at the Start |
現在の深層強化学習は,その発展が社会的な注目を集める一方,複雑な動作を計画するための方策を自律的に学習するということが,現実世界のロボットに対しては実現できていない.本研究では,学習機能を備えたロボットシステムの社会実装を目指し,実社会で現実的に利用可能なレベルで,複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発に取り組む.
|
Outline of Final Research Achievements |
Reinforcement learning (RL) is a promising approach to realizing autonomous robots that work in the real world. However, RL faces challenges in learning efficiency and adaptation to changes in the environment. This study aimed to develop a framework for deep RL that can be adapted to changes in the environment by learning various types of movements and using them differently. First, we constructed an algorithm that finds diverse solutions to the problem of trajectory optimization, which is necessary for robot motion planning. Using this knowledge, we also developed an algorithm for deep RL that can find and model a myriad of solutions. We also showed that the algorithm can efficiently adapt to changes in the environment by using a variety of behaviors obtained by the proposed algorithm.
|
Academic Significance and Societal Importance of the Research Achievements |
従来の研究において,ロボットの動作計画問題には無数の多様な解が存在しうることが指摘されていたが,それらを一括して導出しモデル化する手法はこれまでなかった。本研究の成果は,無数の多様な軌道を一括して導出・モデル化することを可能にした点で新規性が高い。同様に,多様な挙動を一度に学習することを深層強化学習においても実現した点にも価値がある。本研究で得られた成果は,強化学習等を活用したロボットシステムにおいて環境の変化への適応を劇的に効率化する可能性を秘めており,実社会での適用先を広げると考えられる。また,これらの成果は国際的に認知され,2022年にはロボット学習分野のトップ学会にて招待講演を行った。
|