研究実績の概要 |
強化学習(Reinforcement Learning, RL)は学習主体であるエージェントが,タスク達成に結びつく報酬を用いて,自律的に行動を獲得する学習法である。一般に報酬は設計者の知識にもとづいて設定されるが,報酬に対する明確な知識がない場合,適切な報酬の設定は困難な問題となる。このような場合には,報酬の推定も学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である。 IRLでは,タスクを最適方策で達成可能なエキスパートエージェント(Expert Agent, EA)の存在を仮定している。そして,学習エージェント(Learning Agent, LA)は,EAの振る舞いを観測することで,EAが内部に持つ報酬関数を推定する。そして,推定結果にもとづいて強化学習を行い,EAと同等の振る舞いを獲得する。しかし,実問題においてはタスク達成可能なエージェントがEAであるとは限らない。観測可能なエージェントの振る舞いは,たとえタスクが達成可能であったとしても,冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを,準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが,複数のsEAからIRLを行う方法は明らかではない。 本研究では,この課題を解決する手法として,IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案している。具体的には,複数のsEAから報酬関数を個別に推定し,これらの報酬関数に重みをつけて統合する。そして,統合された報酬関数を用いて,単独のsEAからのIRLより優れた行動の獲得をめざす。
|