本研究は,ロボットの複雑な軌道計画を学習できる深層強化学習アルゴリズムの開発を目標としていた.具体的には,タスクを実行するための多様な解を見つけ出し,それぞれを使い分けることで,複雑な軌道を計画することを目指した. 最終年度である本年度は,多様な解を発見する深層強化学習アルゴリズムを開発し,国際雑誌において発表した.本研究では,多様な解を発見する深層強化学習を,状態行動空間の潜在表現を学習する問題として定式化し,多様な挙動を使い分けることで環境の変化に適応できることを示した. また,本研究で開発したアルゴリズムによって発見された多様な解を活用する方法の一つとして,協働型マルチエージェント強化学習において,多様な挙動を同時に訓練することにより,方策をロバスト化できることを示した.協働型マルチエージェント強化学習においては,協働する相手側の方策が変化すると,学習した方策がうまく機能しないことが知られている.そこで,本研究で開発した多様な解を発見する強化学習アルゴリズムと敵対的学習を組み合わせることで,ロバストな方策を協働型マルチエージェント強化学習において得ることができることを示した. さらに,昨年度までに開発された軌道計画法を改良し,実ロボットにおいて動的な物体を回避するためのオンライン軌道計画を実現することができることを示し,国内学会にて発表した. 研究期間全体を通じて,多様な挙動を発見する軌道最適化アルゴリズムおよび深層強化学習アルゴリズムを構築することができ,実ロボットへの適用も行った.本研究の成果の一部は,ロボティクス分野でトップレベルの評価を得ているInternational Journal of Robotics Researchで研究期間中に2報発表された.研究最終年度には,国際学会および国際ワークショップに計3回招待講演に招かれ,国際的にも認知された.
|