研究課題/領域番号 |
19K20370
|
研究機関 | 九州工業大学 |
研究代表者 |
長 隆之 九州工業大学, 大学院生命体工学研究科, 准教授 (50804663)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 軌道最適化 / 深層強化学習 / 動作計画 |
研究実績の概要 |
本研究では,実ロボットに適用可能な,複雑な軌道を計画する方法を学習することのできる階層型深層強化学習アルゴリズムの開発することを目標としている.本研究においては,タスクを実行するための多様な解を見つけ出し,それぞれをオプションとして使い分けることで,複雑な軌道を計画することを目指す.提案するシステムの実現には,多様な軌道を学習し,一つのニューラルネットワークでモデル化することが必要になる. 3年目となる当該年度では,多様な解を同時に学習する深層強化学習アルゴリズムを開発した.2年目までに開発したアルゴリズムは軌道計画を対象としていたが,当該年度に開発したアルゴリズムは制御系への適用などが可能であり,より汎用性の高いものになる.提案手法では,解の多様体に対応する潜在変数を学習するため,潜在変数と状態変数および行動変数の間の相互情報量を最大化する問題として,問題を定式化した.提案アルゴリズムでは,潜在変数を切り替えると挙動が変わるニューラルネットワークを得ることができる.提案するアルゴリズムは,歩行動作や食事介護タスクなどに適用できることがシミュレータ上で確認され,一つのタスクに対して様々な解を見つけられることが示された.また,学習された多様な挙動を使い分けることにより,タスクの条件が変化した際にも少ない試行で適応できることが確認された.例えば歩行タスクにおいては,多様な歩行動作を学習した後,足の長さなどが変化した場合でも,学習済みの歩行タイプの中から使用可能なものを同定することで,少ない試行で適応できることが示された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の根幹である,多様な解を発見するという課題の解決に貢献するアルゴリズムを3年目までに構築することができた.2年目に開発していた無数の干渉回避軌道をニューラルネットワークによってモデル化するアルゴリズムに関する成果が,当該年度に入ってからロボティクス分野において最高峰の学術誌の一つであるInternational journal of robotics researchに採択された.また,無数の解を学習する深層強化学習アルゴリズムについても,順調に成果がまとめられつつある.
|
今後の研究の推進方策 |
本研究で目標とする階層型強化学習に必要となる,多様な解を見つけ出すアルゴリズムおよび発見された多様な解を使い分ける方法は既にある程度示すことができた.今後は提案手法で得られる多様な解を活用する方法などについて,さらに検討を進める.
|