アンサンブル学習の一種であるAdaboostアルゴリズムを逆強化学習に応用し,複数の報酬関数を統合するシステムを構築した。目的のタスクを達成可能な方策を持つエージェント(サブエキスパート)を複数利用することで,よりタスクの学習に適した報酬関数を獲得するアンサンブル逆強化学習を開発した。複数のサブエキスパートから推定した報酬関数の統合により,それぞれの報酬関数に含まれる不完全知覚の影響緩和を狙いとして適切な報酬配分へのが可能になった。不完全知覚状態を含む環境における実験を行い,アンサンブル逆強化学習によってよりタスクの学習に適した報酬関数を獲得できること確認し,本提案システムの有効性を示した。
|