非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習

研究課題

研究課題/領域番号	16K16132
研究種目	若手研究(B)
配分区分	基金
研究分野	知能ロボティクス
研究機関	名城大学 (2017-2018) 中央大学 (2016)
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2016-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2017年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2016年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
キーワード	徒弟学習 / 逆強化学習 / 強化学習 / 知能ロボティックス
研究成果の概要	非同一な身体性，環境をもつ二者間で報酬関数を転移する逆強化学習手法と，関連する基礎技術について研究を実施した．特に有用性が期待できる研究成果は以下の2つである．1)身体性，環境が異なることで両者から観測される軌道のなす特徴量の時系列に不整合性が生じるという問題に対し，事前に与えられた対応点を利用して特徴写像を陰に学習し，エキスパートから与えられる演示軌道を学習者の特徴空間上で近似する手法を開発した．2)演示に限らず任意の軌道に対するスコアから非線形な報酬関数を推定するアルゴリズムを提案した．
研究成果の学術的意義や社会的意義	人手で目的関数を設計することなく，観測情報に基づいてロボット単体で目的関数を構成することは，ロボットの自律性向上という意味で意義があるものと考える．現在の技術で目的関数を推定するには，何らかのお手本となるデータをロボットに観測させる必要があるが，一方で観測する対象とロボットでは身体，社会から求められる要請など，多くの差異がある．そのため，単純な模倣の枠組みでは適用可能な場面が限られる．本研究課題ではこの問題を緩和する新たな知見を提示した．

報告書

(4件)

研究成果
(5件)

すべて 2018 2017

すべて学会発表 (5件) (うち国際学会 2件)

[学会発表] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定2018
- 著者名/発表者名
  渡邉夏美, 増山岳人, 梅田和昇
- 学会等名
  2018年度人工知能学会全国大会
- 関連する報告書
  2018 実績報告書
[学会発表] Apprenticeship Learning in an Incompatible Feature Space2017
- 著者名/発表者名
  Gakuto Masuyama, Kazunori Umeda
- 学会等名
  2017 IEEE International Conference on Robotics and Automation (ICRA2017)
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] スコアに基づく逆強化学習のための動的計画法による軌道の自己生成2017
- 著者名/発表者名
  渡邉夏美, 増山岳人, 梅田和昇
- 学会等名
  日本機械学会ロボティクス・メカトロニクス講演会2017講演論文集
- 関連する報告書
  2017 実施状況報告書
[学会発表] Apprenticeship Learning in an Incompatible Feature Space2017
- 著者名/発表者名
  Gakuto Masuyama, Kazunori Umeda
- 学会等名
  The 2017 IEEE International Conference on Robotics and Automation
- 発表場所
  Sands Expo and Convention Centre, Marina Bay Sands in Singapore
- 関連する報告書
  2016 実施状況報告書
- 国際学会
[学会発表] スコアに基づく逆強化学習のための動的計画法による軌道の自己生成2017
- 著者名/発表者名
  渡邉夏美，増山岳人，梅田和昇
- 学会等名
  日本機械学会ロボティクス・メカトロニクス講演会2017
- 発表場所
  ビッグパレットふくしま（福島県郡山市）
- 関連する報告書
  2016 実施状況報告書

非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習

研究代表者

増山 岳人 名城大学, 理工学部, 准教授 (20707088)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

報告書

研究成果

[学会発表] 軌道のスコアに基づく逆強化学習を用いた非線形な報酬関数の推定2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Apprenticeship Learning in an Incompatible Feature Space2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] スコアに基づく逆強化学習のための動的計画法による軌道の自己生成2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Apprenticeship Learning in an Incompatible Feature Space2017

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] スコアに基づく逆強化学習のための動的計画法による軌道の自己生成2017

著者名/発表者名

学会等名

発表場所

関連する報告書

増山岳人名城大学, 理工学部, 准教授 (20707088)