2018 年度研究成果報告書

非同一マルコフ決定過程間での徒弟学習によるロボットの行動学習

研究課題

PDF

研究課題/領域番号	16K16132
研究種目	若手研究(B)
配分区分	基金
研究分野	知能ロボティクス
研究機関	名城大学 (2017-2018) 中央大学 (2016)
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	徒弟学習 / 逆強化学習
研究成果の概要	非同一な身体性，環境をもつ二者間で報酬関数を転移する逆強化学習手法と，関連する基礎技術について研究を実施した．特に有用性が期待できる研究成果は以下の2つである．1)身体性，環境が異なることで両者から観測される軌道のなす特徴量の時系列に不整合性が生じるという問題に対し，事前に与えられた対応点を利用して特徴写像を陰に学習し，エキスパートから与えられる演示軌道を学習者の特徴空間上で近似する手法を開発した．2)演示に限らず任意の軌道に対するスコアから非線形な報酬関数を推定するアルゴリズムを提案した．
自由記述の分野	知能ロボティクス
研究成果の学術的意義や社会的意義	人手で目的関数を設計することなく，観測情報に基づいてロボット単体で目的関数を構成することは，ロボットの自律性向上という意味で意義があるものと考える．現在の技術で目的関数を推定するには，何らかのお手本となるデータをロボットに観測させる必要があるが，一方で観測する対象とロボットでは身体，社会から求められる要請など，多くの差異がある．そのため，単純な模倣の枠組みでは適用可能な場面が限られる．本研究課題ではこの問題を緩和する新たな知見を提示した．