2017 Fiscal Year Annual Research Report

An ensemble inverse reinforcement learning for exceeding the expert skills

Research Project

Project/Area Number	16K12485
Research Institution	Yokohama National University
Principal Investigator	濱上知樹横浜国立大学, 大学院工学研究院, 教授 (30334204)
Project Period (FY)	2016-04-01 – 2018-03-31
Keywords	強化学習 / 逆強化学習 / アンサンブル学習 / ブースティング
Outline of Annual Research Achievements	近年、強化学習(Reinforcement Learning, RL)技術の様々な応用への展開が期待されている。一方、実問題においてはRLにおいて報酬に対する明確な知識が不明であり，適切な報酬の設定が困難な場合が多い。このような問題に対しては，報酬の推定を学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である IRLでは報酬関数を推定するために見習う先となるエキスパートの存在を仮定する。しかし、タスクを成功できるエージェントが十分な性能でない場合は、たとえ報酬関数の推定が可能であったとしても冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを，準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが，複数のsEAからIRLを行う方法は明らかではない。本研究ではこの課題を解決する手法として，IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案した。本研究の１年目では，複数のsEAから報酬関数を個別に推定し，これらの報酬関数に重みをつけて統合する報酬関数を用いて，単独のsEAからのIRLより優れた行動の獲得が可能であることを明らかにした。さらに２年目は、さらに実問題を意識した状態空間の自律的な獲得手法の確立と、これを用いたプラント制御問題への応用をはかった。前者では状態空間の類似性をオンラインで学習し、報酬関数の転移を行うことでsEAの見習い時間の短縮を実現した。後者では、プラント監視画面を状態空間として、オペレータの操作をeEAによって獲得する問題に取り組んだ。実験の結果、一般的な状態回帰制御に比べて学習時間の短縮と精度向上が得られることを明らかにした。

Research Products
(4 results)

All 2017

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Journal Article] 準エキスパート集団からのアンサンブル逆強化学習2017
- Author(s)
  冨田真司，濱津文哉，濱上知樹
- Journal Title
  
  電気学会電子情報システム部門論文誌C
  
  Volume: 137 Pages: 667-673
- DOI
  10.1541/ieejeiss.137.667
- Peer Reviewed
[Journal Article] An Analysis of Rule Deletion Scheme in XCS on Reinforcement Learning Problem2017
- Author(s)
  Masaya Nakata, Tomoki Hamagami
- Journal Title
  
  Journal of Advanced Computational Intelligent Information
  
  Volume: 21 Pages: 876-884
- DOI
  10.20965/jaciii.2017.p0876
- Peer Reviewed
[Journal Article] Revisit of Rule-Deletion Strategy for XCSAM Classifier System on Classification2017
- Author(s)
  Masaya Nakata, Tomoki Hamagami
- Journal Title
  
  Transaction of Ins. of Sys., Cont. and Eng.
  
  Volume: 30 Pages: 273-285
- DOI
  10.5687/iscie.30.273
- Peer Reviewed
[Presentation] Effect of Parameter Sharing for Multimodal Deep Autoencoders2017
- Author(s)
  Hayato Sasaki, Masaya Nakata, Fumiya Hamatsu, Tomoki Hamagami
- Organizer
  Proc. of IEEE SMC2017
- Int'l Joint Research

2017 Fiscal Year Annual Research Report

An ensemble inverse reinforcement learning for exceeding the expert skills

Principal Investigator

濱上 知樹 横浜国立大学, 大学院工学研究院, 教授 (30334204)

Research Products

[Journal Article] 準エキスパート集団からのアンサンブル逆強化学習2017

Author(s)

Journal Title

DOI

[Journal Article] An Analysis of Rule Deletion Scheme in XCS on Reinforcement Learning Problem2017

Author(s)

Journal Title

DOI

[Journal Article] Revisit of Rule-Deletion Strategy for XCSAM Classifier System on Classification2017

Author(s)

Journal Title

DOI

[Presentation] Effect of Parameter Sharing for Multimodal Deep Autoencoders2017

Author(s)

Organizer

濱上知樹横浜国立大学, 大学院工学研究院, 教授 (30334204)