内部モデルを用いた人型ロボットの歩行運動学習における戦略的行動選択

研究課題

研究課題/領域番号	19J22987
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	国内
審査区分	小区分61040:ソフトコンピューティング関連
研究機関	京都大学
研究代表者	山森聡京都大学, 情報学研究科, 特別研究員(DC1)
研究期間 (年度)	2019-04-25 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	3,100千円 (直接経費: 3,100千円) 2021年度: 1,000千円 (直接経費: 1,000千円) 2020年度: 1,000千円 (直接経費: 1,000千円) 2019年度: 1,100千円 (直接経費: 1,100千円)
キーワード	強化学習 / 歩行運動学習 / モデル予測制御 / 確率的推論 / モデル同定 / 最適制御 / 人型ロボット
研究開始時の研究の概要	屋外環境における自律的人型ロボットの実現には状況に即した歩行運動を生成できる制御器を学習することが求められる．しかし，人型ロボットでは学習データの数が莫大となり，状況の変化に対して迅速な学習ができない．その原因は学習効率を高めるための学習行動選択の規範となるべきモデルがないことにある．将来の状態を予測するモデルがあれば学習の効率が上がることが知られているが，人型ロボットではモデルが複雑になり逐次的な同定ができない．そこで，本研究では歩行制御器とロボットを含めた歩行運動の内部モデルを同定することで対象となるモデルを単純化し，状況に即した制御器を学習するための行動を内部モデルを用いて最適化する．
研究実績の概要	人間レベルの運動をロボットに学習させるためには、行動を獲得する際の試行錯誤の回数を削減する必要がある。実際の環境における試行錯誤の回数を改善するために仮想環境上のモデルを活用することが本研究の目的である。本研究の特色は、ロボットが取った行動と行動の良さを示す価値の２つの間にある潜在的関係を内部モデルとして学習することにある。潜在的関係を用いて行動を獲得させることで、ロボットの学習は迅速化される。なぜなら、潜在的関係を学習することはそのままでは大きすぎて扱えない様な高次元空間を持つロボットの振る舞いを低次元空間へ圧縮する効果を持つため、より小さい空間でロボットは試行錯誤できるからである。昨年度までの成果として、ロボットが獲得したい最適な方策と内部モデルの獲得問題を確率分布の変分推論問題として捉える理論的な枠組みを構築した。こうした、枠組みは従来の高次元でのロボットの振る舞いを、タスクを解くために十分な粒度に単純化・圧縮することができる。今年度は、提案法を実ロボットに応用することで学習を迅速化することを目標として提案手法を用いて６自由度の腕ロボットに学習をさせた。実ロボットにおける学習上の課題として、仮想環境上の物理モデルと実ロボットとの間に生じる誤差がある。提案したアルゴリズムが獲得した内部モデルはこうした誤差をより低次元で表現できる効果があるため、こうした表現上で再度学習することは実際環境と仮想環境の誤差を簡単に修正することができる。これにより仮想環境で学習した行動が実際の環境においても性能を発揮させることが期待できる。その結果、本研究の成果として異なる環境設定のもとで、ロボットが行動を獲得することが確認され、現実環境にあるロボットへの提案アルゴリズムを展開することが可能になりつつある。
現在までの達成度 (段落)	令和3年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和3年度が最終年度であるため、記入しない。

報告書

(3件)