2017 年度実施状況報告書

非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習

研究課題

研究課題/領域番号	16K16132
研究機関	名城大学
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	逆強化学習 / 強化学習
研究実績の概要	異なる身体特性・環境にあるロボット間でのデータ転移を目指し，新たな徒弟学習手法を開発した．今年度は，異なる特徴空間で観測される演示を用い，ターゲットの特徴空間において報酬関数を推定する手法について研究を実施した．また，転移を行うための学習器を訓練する際に用いる対応点に関する基礎検討も実施した．開発した手法は，逆強化学習によって推定される報酬関数を転移を目的とするという点で，一般的な転移学習とは異なる．身体及び環境が共有されない場合，転移した情報のみから設計者が意図した制御則を得ることは極めて難しい．そこで，データを受け取る側のロボットが自律的にサンプルするデータの利用することで，一定の汎化を試みた．そのために，転移するのは報酬関数とした．また，推定した報酬関数を利用することで，強化学習の実行する際のサンプル効率の向上を図った．開発した手法では，2つの特徴空間に関する条件付き確率密度関数を確率密度非推定手法を利用して推定することで，一方の動作情報を他方に転移する．特に確率密度比を近似する際に，基底関数をガウシアンとすることで解析的な推定値を得られることを示した．また，実験的に身体特性や問題設定が異なる2つのタスクに対し提案手法を適用したところ，単純な回帰よりもよい性能が得られることを確認できた．2つのタスクには，最適方策から出力される動作に周期性があるという点で類似性があり，これが作用したと考えられる．
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由理論については検証用プロトタイプの実装段階まで到達できたと考えるが，実機への実装には至っておらず，計画から遅れた状況である．異動に伴う職位の変更などにより，予定通り研究を遂行することができなかったため，期間延長を申請した．
今後の研究の推進方策	考案した手法の有効性を実機実験により検証し，改善点の整理を行う．実験にはエキスパートとして人間のスケルトンデータ，ロボットには5軸マニピュレータを用いる予定である．また，学習器に与える対応点をいかに作成するかという点に実装上のボトルネックがあると考えている．さらに，今年度の研究結果を踏まえると，当初予想していたものと手法の適用範囲が異なっている可能性がある．対応点の作成に要するコストを低減することと，より挑戦的な問題設定への適用可能性について検証する．
次年度使用額が生じた理由	異動及びそれに伴う職位の変更により，十分に研究遂行に集中することができなかった．そのため，期間延長を申請し，2018年度も当該研究を実施する．使用計画はほぼ2017年度と同じになる予定であるが，利用可能なマニピュレータを1台確保できたため，当初予定から変更し，計測機器の充実を図る予定である．

研究成果
(2件)

すべて学会発表 (2件) (うち国際学会 1件)

[学会発表] Apprenticeship Learning in an Incompatible Feature Space2017
- 著者名/発表者名
  Gakuto Masuyama, Kazunori Umeda
- 学会等名
  2017 IEEE International Conference on Robotics and Automation (ICRA2017)
- 国際学会
[学会発表] スコアに基づく逆強化学習のための動的計画法による軌道の自己生成2017
- 著者名/発表者名
  渡邉夏美, 増山岳人, 梅田和昇
- 学会等名
  日本機械学会ロボティクス・メカトロニクス講演会2017講演論文集