研究課題
若手研究(B)
非同一な身体性,環境をもつ二者間で報酬関数を転移する逆強化学習手法と,関連する基礎技術について研究を実施した.特に有用性が期待できる研究成果は以下の2つである.1)身体性,環境が異なることで両者から観測される軌道のなす特徴量の時系列に不整合性が生じるという問題に対し,事前に与えられた対応点を利用して特徴写像を陰に学習し,エキスパートから与えられる演示軌道を学習者の特徴空間上で近似する手法を開発した.2)演示に限らず任意の軌道に対するスコアから非線形な報酬関数を推定するアルゴリズムを提案した.
知能ロボティクス
人手で目的関数を設計することなく,観測情報に基づいてロボット単体で目的関数を構成することは,ロボットの自律性向上という意味で意義があるものと考える.現在の技術で目的関数を推定するには,何らかのお手本となるデータをロボットに観測させる必要があるが,一方で観測する対象とロボットでは身体,社会から求められる要請など,多くの差異がある.そのため,単純な模倣の枠組みでは適用可能な場面が限られる.本研究課題ではこの問題を緩和する新たな知見を提示した.