2017 Fiscal Year Annual Research Report
An ensemble inverse reinforcement learning for exceeding the expert skills
Project/Area Number |
16K12485
|
Research Institution | Yokohama National University |
Principal Investigator |
濱上 知樹 横浜国立大学, 大学院工学研究院, 教授 (30334204)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 強化学習 / 逆強化学習 / アンサンブル学習 / ブースティング |
Outline of Annual Research Achievements |
近年、強化学習(Reinforcement Learning, RL)技術の様々な応用への展開が期待されている。一方、実問題においてはRLにおいて報酬に対する明確な知識が不明であり,適切な報酬の設定が困難な場合が多い。このような問題に対しては,報酬の推定を学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である IRLでは報酬関数を推定するために見習う先となるエキスパートの存在を仮定する。しかし、タスクを成功できるエージェントが十分な性能でない場合は、たとえ報酬関数の推定が可能であったとしても冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを,準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが,複数のsEAからIRLを行う方法は明らかではない。 本研究ではこの課題を解決する手法として,IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案した。本研究の1年目では,複数のsEAから報酬関数を個別に推定し,これらの報酬関数に重みをつけて統合する報酬関数を用いて,単独のsEAからのIRLより優れた行動の獲得が可能であることを明らかにした。さらに2年目は、さらに実問題を意識した状態空間の自律的な獲得手法の確立と、これを用いたプラント制御問題への応用をはかった。前者では状態空間の類似性をオンラインで学習し、報酬関数の転移を行うことでsEAの見習い時間の短縮を実現した。後者では、プラント監視画面を状態空間として、オペレータの操作をeEAによって獲得する問題に取り組んだ。実験の結果、一般的な状態回帰制御に比べて学習時間の短縮と精度向上が得られることを明らかにした。
|