2016 Fiscal Year Research-status Report
非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習
Project/Area Number |
16K16132
|
Research Institution | Chuo University |
Principal Investigator |
増山 岳人 中央大学, 理工学部, 助教 (20707088)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 逆強化学習 / 強化学習 |
Outline of Annual Research Achievements |
観測される所与のタスクに関するエキスパートの振る舞いから報酬関数(目的関数)を推定する逆強化学習を用い行動学習を行う徒弟学習に関する研究を行っている.一般にエキスパートと学習者では外部環境や身体構造に差異があることが想定される.そのため,適切な報酬関数を推定するためにはシステム設計者の経験に基づく調整が必要となる.本研究では,人の振る舞いの観測によるロボットの自律的な行動学習のために上述のギャップを克服することを目的としている. 本年度は,二者間の特徴空間の対応関係の学習を徒弟学習のプロセスに組み込むアプローチをとった.条件付き確率を頑健に推定できる密度比推定の手法を導入した徒弟学習手法を開発した.報酬関数を推定するために必要な特徴量の期待値を効率よく計算可能であり,かつ容易に実装できるという特長をもつ.また,学習者が任意の制御則からサンプルした軌道を報酬関数の推定に用いることで,エキスパート-学習者間のギャップの緩和を図った.シミュレーションによって性能を検証し,単純な問題に対しては有効に動作することが確認できた.また,身体,環境,タスクのいずれも共有されない問題設定に対して本手法を適用してみたところ,大雑把に与えられた対応関係からでも報酬関数を転移可能であることを示唆する結果が得られた.しかし,現段階では経験的な検証に留まっているため,さらなる実験的,理論的検証が必要である. また,平成29年度実施予定であった能動学習の導入について,前倒しで検証を開始した.学習者が自己生成した軌道に基づいたクエリの生成基準を検討した.計算効率,現実問題への適用に課題があり,引き続き調査,研究を進める.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度計画の特徴写像及び学習者のサンプル軌道の利用に関しては,検討を計画していたアイディアの全てを実装するには至らなかったが,有効性を示唆する結果が得られるアプローチを発見できた.また,計画の一部を前倒しし,能動学習に関する検証を進めることができた.ただし,実ロボットでの検証実験の準備が遅れている.
|
Strategy for Future Research Activity |
当初計画通り,学習者のサンプル軌道を用いた徒弟学習への新たな距離尺度の導入を検討する.また,能動学習もしくは転移学習の利用によって特徴写像の推定効率を向上させる.加えて,実機実験を行い有効性の検証を実施する.
|
Causes of Carryover |
マニピュレータの購入を予定していたが,実機実験の計画に遅れが生じたことにより購入時期を次年度に見送ったため.
|
Expenditure Plan for Carryover Budget |
当初予定していた通り,実機実験に用いるロボット,センサ,PCなどの購入に充てる.
|
Research Products
(2 results)