本研究では密度比推定に基づく新しい逆強化学習法を提案する。アルゴリズムを導出するために、推定される報酬にカルバックライブラー情報量で制約を与える。この結果、最適確率的制御則と基準となる制御則の対数比が報酬と価値関数によって表現される。従来法の大半が制御開始から終了までの状態系列の集合をデータとして用いるのに対し、提案手法は状態遷移の集合をデータとして用いることができるので非常にデータ効率が良い。ロボットのナビゲーション課題に適用し、提案手法は従来法よりも精度よく報酬を推定することができた。また、提案手法はシェーピングの理論と組み合わせることが可能で、順強化学習のスピードも改善できた。
|