2017 Fiscal Year Research-status Report
非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習
Project/Area Number |
16K16132
|
Research Institution | Meijo University |
Principal Investigator |
増山 岳人 名城大学, 理工学部, 准教授 (20707088)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 逆強化学習 / 強化学習 |
Outline of Annual Research Achievements |
異なる身体特性・環境にあるロボット間でのデータ転移を目指し,新たな徒弟学習手法を開発した.今年度は,異なる特徴空間で観測される演示を用い,ターゲットの特徴空間において報酬関数を推定する手法について研究を実施した.また,転移を行うための学習器を訓練する際に用いる対応点に関する基礎検討も実施した. 開発した手法は,逆強化学習によって推定される報酬関数を転移を目的とするという点で,一般的な転移学習とは異なる.身体及び環境が共有されない場合,転移した情報のみから設計者が意図した制御則を得ることは極めて難しい.そこで,データを受け取る側のロボットが自律的にサンプルするデータの利用することで,一定の汎化を試みた.そのために,転移するのは報酬関数とした.また,推定した報酬関数を利用することで,強化学習の実行する際のサンプル効率の向上を図った. 開発した手法では,2つの特徴空間に関する条件付き確率密度関数を確率密度非推定手法を利用して推定することで,一方の動作情報を他方に転移する.特に確率密度比を近似する際に,基底関数をガウシアンとすることで解析的な推定値を得られることを示した.また,実験的に身体特性や問題設定が異なる2つのタスクに対し提案手法を適用したところ,単純な回帰よりもよい性能が得られることを確認できた.2つのタスクには,最適方策から出力される動作に周期性があるという点で類似性があり,これが作用したと考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
理論については検証用プロトタイプの実装段階まで到達できたと考えるが,実機への実装には至っておらず,計画から遅れた状況である.異動に伴う職位の変更などにより,予定通り研究を遂行することができなかったため,期間延長を申請した.
|
Strategy for Future Research Activity |
考案した手法の有効性を実機実験により検証し,改善点の整理を行う.実験にはエキスパートとして人間のスケルトンデータ,ロボットには5軸マニピュレータを用いる予定である. また,学習器に与える対応点をいかに作成するかという点に実装上のボトルネックがあると考えている.さらに,今年度の研究結果を踏まえると,当初予想していたものと手法の適用範囲が異なっている可能性がある.対応点の作成に要するコストを低減することと,より挑戦的な問題設定への適用可能性について検証する.
|
Causes of Carryover |
異動及びそれに伴う職位の変更により,十分に研究遂行に集中することができなかった.そのため,期間延長を申請し,2018年度も当該研究を実施する.使用計画はほぼ2017年度と同じになる予定であるが,利用可能なマニピュレータを1台確保できたため,当初予定から変更し,計測機器の充実を図る予定である.
|
Research Products
(2 results)