研究課題/領域番号 |
19K20370
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 東京大学 (2022) 九州工業大学 (2019-2021) |
研究代表者 |
長 隆之 東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2020年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2019年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
|
キーワード | 強化学習 / 軌道計画 / ロボティクス / 深層強化学習 / 動作計画 / ロボット / 軌道最適化 / 深層学習 / ニューラルネットワーク |
研究開始時の研究の概要 |
現在の深層強化学習は,その発展が社会的な注目を集める一方,複雑な動作を計画するための方策を自律的に学習するということが,現実世界のロボットに対しては実現できていない.本研究では,学習機能を備えたロボットシステムの社会実装を目指し,実社会で現実的に利用可能なレベルで,複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発に取り組む.
|
研究成果の概要 |
強化学習は,実社会で自律的に動くロボットを実現するためのアプローチとして期待される一方,学習効率や環境の変化への適応などに課題を抱えている。本研究は,様々な動きを学習し,それらを使い分けることにより,環境の変化へと適用できる深層強化学習の枠組みを構築することを目指した.まず,ロボットの動作計画に必要な軌道最適化の問題において,多様な解を発見するアルゴリズムを構築した。また,その知見を活かし,深層強化学習においても,多様な挙動を発見・モデル化するアルゴリズムを構築した.また,提案するアルゴリズムによって得られた多様な挙動を使い分けることによって,環境の変化への適応を効率的に行えることを示した。
|
研究成果の学術的意義や社会的意義 |
従来の研究において,ロボットの動作計画問題には無数の多様な解が存在しうることが指摘されていたが,それらを一括して導出しモデル化する手法はこれまでなかった。本研究の成果は,無数の多様な軌道を一括して導出・モデル化することを可能にした点で新規性が高い。同様に,多様な挙動を一度に学習することを深層強化学習においても実現した点にも価値がある。本研究で得られた成果は,強化学習等を活用したロボットシステムにおいて環境の変化への適応を劇的に効率化する可能性を秘めており,実社会での適用先を広げると考えられる。また,これらの成果は国際的に認知され,2022年にはロボット学習分野のトップ学会にて招待講演を行った。
|