2017 年度研究成果報告書

熟練者のスキルを超越するアンサンブル逆強化学習の提案

研究課題

研究課題/領域番号	16K12485
研究種目	挑戦的萌芽研究
配分区分	基金
研究分野	知能情報学
研究機関	横浜国立大学
研究代表者	濱上知樹横浜国立大学, 大学院工学研究院, 教授 (30334204)
研究期間 (年度)	2016-04-01 – 2018-03-31
キーワード	逆強化学習 / 強化学習 / アンサンブル学習 / 不完全知覚
研究成果の概要	アンサンブル学習の一種であるAdaboostアルゴリズムを逆強化学習に応用し，複数の報酬関数を統合するシステムを構築した。目的のタスクを達成可能な方策を持つエージェント(サブエキスパート)を複数利用することで，よりタスクの学習に適した報酬関数を獲得するアンサンブル逆強化学習を開発した。複数のサブエキスパートから推定した報酬関数の統合により，それぞれの報酬関数に含まれる不完全知覚の影響緩和を狙いとして適切な報酬配分へのが可能になった。不完全知覚状態を含む環境における実験を行い，アンサンブル逆強化学習によってよりタスクの学習に適した報酬関数を獲得できること確認し，本提案システムの有効性を示した。
自由記述の分野	情報学