• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

熟練者のスキルを超越するアンサンブル逆強化学習の提案

研究課題

研究課題/領域番号 16K12485
研究機関横浜国立大学

研究代表者

濱上 知樹  横浜国立大学, 大学院工学研究院, 教授 (30334204)

研究期間 (年度) 2016-04-01 – 2018-03-31
キーワード強化学習 / 逆強化学習 / アンサンブル学習 / ブースティング
研究実績の概要

近年、強化学習(Reinforcement Learning, RL)技術の様々な応用への展開が期待されている。一方、実問題においてはRLにおいて報酬に対する明確な知識が不明であり,適切な報酬の設定が困難な場合が多い。このような問題に対しては,報酬の推定を学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である
IRLでは報酬関数を推定するために見習う先となるエキスパートの存在を仮定する。しかし、タスクを成功できるエージェントが十分な性能でない場合は、たとえ報酬関数の推定が可能であったとしても冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを,準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが,複数のsEAからIRLを行う方法は明らかではない。
本研究ではこの課題を解決する手法として,IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案した。本研究の1年目では,複数のsEAから報酬関数を個別に推定し,これらの報酬関数に重みをつけて統合する報酬関数を用いて,単独のsEAからのIRLより優れた行動の獲得が可能であることを明らかにした。さらに2年目は、さらに実問題を意識した状態空間の自律的な獲得手法の確立と、これを用いたプラント制御問題への応用をはかった。前者では状態空間の類似性をオンラインで学習し、報酬関数の転移を行うことでsEAの見習い時間の短縮を実現した。後者では、プラント監視画面を状態空間として、オペレータの操作をeEAによって獲得する問題に取り組んだ。実験の結果、一般的な状態回帰制御に比べて学習時間の短縮と精度向上が得られることを明らかにした。

  • 研究成果

    (4件)

すべて 2017

すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件) (うち国際学会 1件)

  • [雑誌論文] 準エキスパート集団からのアンサンブル逆強化学習2017

    • 著者名/発表者名
      冨田真司,濱津文哉,濱上知樹
    • 雑誌名

      電気学会電子情報システム部門論文誌C

      巻: 137 ページ: 667-673

    • DOI

      10.1541/ieejeiss.137.667

    • 査読あり
  • [雑誌論文] An Analysis of Rule Deletion Scheme in XCS on Reinforcement Learning Problem2017

    • 著者名/発表者名
      Masaya Nakata, Tomoki Hamagami
    • 雑誌名

      Journal of Advanced Computational Intelligent Information

      巻: 21 ページ: 876-884

    • DOI

      10.20965/jaciii.2017.p0876

    • 査読あり
  • [雑誌論文] Revisit of Rule-Deletion Strategy for XCSAM Classifier System on Classification2017

    • 著者名/発表者名
      Masaya Nakata, Tomoki Hamagami
    • 雑誌名

      Transaction of Ins. of Sys., Cont. and Eng.

      巻: 30 ページ: 273-285

    • DOI

      10.5687/iscie.30.273

    • 査読あり
  • [学会発表] Effect of Parameter Sharing for Multimodal Deep Autoencoders2017

    • 著者名/発表者名
      Hayato Sasaki, Masaya Nakata, Fumiya Hamatsu, Tomoki Hamagami
    • 学会等名
      Proc. of IEEE SMC2017
    • 国際学会

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi