内部モデルを用いた人型ロボットの歩行運動学習における戦略的行動選択

Research Project

Project/Area Number	19J22987
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Review Section	Basic Section 61040:Soft computing-related
Research Institution	Kyoto University
Principal Investigator	山森聡京都大学, 情報学研究科, 特別研究員(DC1)
Project Period (FY)	2019-04-25 – 2022-03-31
Project Status	Completed (Fiscal Year 2021)
Budget Amount *help	¥3,100,000 (Direct Cost: ¥3,100,000) Fiscal Year 2021: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2020: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2019: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	強化学習 / 歩行運動学習 / モデル予測制御 / 確率的推論 / モデル同定 / 最適制御 / 人型ロボット
Outline of Research at the Start	屋外環境における自律的人型ロボットの実現には状況に即した歩行運動を生成できる制御器を学習することが求められる．しかし，人型ロボットでは学習データの数が莫大となり，状況の変化に対して迅速な学習ができない．その原因は学習効率を高めるための学習行動選択の規範となるべきモデルがないことにある．将来の状態を予測するモデルがあれば学習の効率が上がることが知られているが，人型ロボットではモデルが複雑になり逐次的な同定ができない．そこで，本研究では歩行制御器とロボットを含めた歩行運動の内部モデルを同定することで対象となるモデルを単純化し，状況に即した制御器を学習するための行動を内部モデルを用いて最適化する．
Outline of Annual Research Achievements	人間レベルの運動をロボットに学習させるためには、行動を獲得する際の試行錯誤の回数を削減する必要がある。実際の環境における試行錯誤の回数を改善するために仮想環境上のモデルを活用することが本研究の目的である。本研究の特色は、ロボットが取った行動と行動の良さを示す価値の２つの間にある潜在的関係を内部モデルとして学習することにある。潜在的関係を用いて行動を獲得させることで、ロボットの学習は迅速化される。なぜなら、潜在的関係を学習することはそのままでは大きすぎて扱えない様な高次元空間を持つロボットの振る舞いを低次元空間へ圧縮する効果を持つため、より小さい空間でロボットは試行錯誤できるからである。昨年度までの成果として、ロボットが獲得したい最適な方策と内部モデルの獲得問題を確率分布の変分推論問題として捉える理論的な枠組みを構築した。こうした、枠組みは従来の高次元でのロボットの振る舞いを、タスクを解くために十分な粒度に単純化・圧縮することができる。今年度は、提案法を実ロボットに応用することで学習を迅速化することを目標として提案手法を用いて６自由度の腕ロボットに学習をさせた。実ロボットにおける学習上の課題として、仮想環境上の物理モデルと実ロボットとの間に生じる誤差がある。提案したアルゴリズムが獲得した内部モデルはこうした誤差をより低次元で表現できる効果があるため、こうした表現上で再度学習することは実際環境と仮想環境の誤差を簡単に修正することができる。これにより仮想環境で学習した行動が実際の環境においても性能を発揮させることが期待できる。その結果、本研究の成果として異なる環境設定のもとで、ロボットが行動を獲得することが確認され、現実環境にあるロボットへの提案アルゴリズムを展開することが可能になりつつある。
Research Progress Status	令和3年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和3年度が最終年度であるため、記入しない。

Report

(3 results)