2016 Fiscal Year Research-status Report

熟練者のスキルを超越するアンサンブル逆強化学習の提案

Research Project

Project/Area Number	16K12485
Research Institution	Yokohama National University
Principal Investigator	濱上知樹横浜国立大学, 大学院工学研究院, 教授 (30334204)
Project Period (FY)	2016-04-01 – 2018-03-31
Keywords	機械学習 / 逆強化学習 / アンサンブル学習
Outline of Annual Research Achievements	強化学習(Reinforcement Learning, RL)は学習主体であるエージェントが，タスク達成に結びつく報酬を用いて，自律的に行動を獲得する学習法である。一般に報酬は設計者の知識にもとづいて設定されるが，報酬に対する明確な知識がない場合，適切な報酬の設定は困難な問題となる。このような場合には，報酬の推定も学習機構に含む逆強化学習(Inverse Reinforcement Learning, IRL)が有効である。 IRLでは，タスクを最適方策で達成可能なエキスパートエージェント(Expert Agent, EA)の存在を仮定している。そして，学習エージェント(Learning Agent, LA)は，EAの振る舞いを観測することで，EAが内部に持つ報酬関数を推定する。そして，推定結果にもとづいて強化学習を行い，EAと同等の振る舞いを獲得する。しかし，実問題においてはタスク達成可能なエージェントがEAであるとは限らない。観測可能なエージェントの振る舞いは，たとえタスクが達成可能であったとしても，冗長な行動や不合理な振る舞いをする場合がある。このように不完全な演示しかできないエージェントを，準エキスパートエージェント(semi-EA, sEA)と呼ぶ。一般にsEAは複数存在しうるが，複数のsEAからIRLを行う方法は明らかではない。本研究では，この課題を解決する手法として，IRLとメタ学習の一種である適応ブースティング(Adaptive boosting)を組み合わせたsEA集団からのアンサンブル逆強化学習を提案している。具体的には，複数のsEAから報酬関数を個別に推定し，これらの報酬関数に重みをつけて統合する。そして，統合された報酬関数を用いて，単独のsEAからのIRLより優れた行動の獲得をめざす。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason アンサンブル学習の一種であるAdaboostアルゴリズムを逆強化学習に応用し，複数の報酬関数を統合するシステムを構築した。目的のタスクを達成可能な方策を持つエージェント(サブエキスパート)を複数利用することで，よりタスクの学習に適した報酬関数を獲得するアンサンブル逆強化学習を開発した。複数のサブエキスパートから推定した報酬関数の統合により，それぞれの報酬関数に含まれる不完全知覚の影響緩和を狙いとして適切な報酬配分へが可能になった。本提案システムの有効性を確認するために，不完全知覚状態を含む環境におけるシミュレーション実験を行い，アンサンブル逆強化学習によってよりタスクの学習に適した報酬関数を獲得できること確認し，本提案システムの有効性を示した。
Strategy for Future Research Activity	ここまでに得られた結果により，逆強化学習におけるアンサンブルの効果が明らかになった。これは，個々のsEAから観測される特徴期待値の重み付き平均を用いて求めた報酬関数でも，論文で示した個々の報酬関数のアンサンブルと同様の性能が得られる可能性があることを示している。逆強化学習の出力である報酬関数をアンサンブルする考え方は，特徴期待値を用いない他の逆強化学習やそれらを混合させたアンサンブル学習時にも有効である。これらの成果をうけて，次のステップとして報酬関数のアンサンブルに要する計算コストの評価に加え，EAの数と分布および獲得方法の検討，環境の規模・次元に対する計算効率の検討，POMDP環境における性能評価と性能限界の評価について検討を進め，アンサンブル逆強化学習の実用性について明らかにする。

Research Products
(5 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results) (of which Int'l Joint Research: 1 results)

[Journal Article] 準エキスパート集団からのアンサンブル逆強化学習2017
- Author(s)
  冨田真司，濱津文哉，濱上知樹
- Journal Title
  
  電気学会電子情報システム部門論文誌C
  
  Volume: 137 Pages: 667-673
- DOI
  10.1541/ieejeiss.137.667
- Peer Reviewed
[Presentation] パラメータ共有型マルチモーダル深層自己符号化器を用いた部分観測下多様体学習の検討2017
- Author(s)
  佐々木勇人, 中田雅也, 濱津文哉, 濱上知樹
- Organizer
  第79 回情報処理学会全国大会
- Place of Presentation
  名古屋
- Year and Date
  2017-03-16 – 2017-03-18
[Presentation] 転移学習によるDeep Q-Networkの学習高速化に向けた検討2017
- Author(s)
  足立一樹, 佐々木勇人, 中田雅也, 濱津文哉, 濱上知樹
- Organizer
  第79 回情報処理学会全国大会
- Place of Presentation
  名古屋
- Year and Date
  2017-03-16 – 2017-03-18
[Presentation] マルチモーダル深層自己符号化器におけるモダリティ間パラメータ共有の検討2016
- Author(s)
  佐々木勇人, 中田雅也, 濱津文哉, 濱上知樹
- Organizer
  第10 回コンピューテーショナル・インテリジェンス研究会
- Place of Presentation
  富山
- Year and Date
  2016-12-16 – 2016-12-17
[Presentation] Construction of visual codebook for speeding up visual-based Simultaneous Localization and Mapping2016
- Author(s)
  Hayato Sasaki, Fumiya Hamatsu, Tomoki Hamagami
- Organizer
  The International Conference on 　Electrical Engineering (ICEE)2016
- Place of Presentation
  沖縄
- Year and Date
  2016-07-03 – 2016-07-07
- Int'l Joint Research

2016 Fiscal Year Research-status Report

熟練者のスキルを超越するアンサンブル逆強化学習の提案

Principal Investigator

濱上 知樹 横浜国立大学, 大学院工学研究院, 教授 (30334204)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 準エキスパート集団からのアンサンブル逆強化学習2017

Author(s)

Journal Title

DOI

[Presentation] パラメータ共有型マル チモーダル深層自己符号化器を用いた部分観測下多様体学習の検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 転移学習によるDeep Q-Networkの学習高速化に向けた検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] マルチモーダル深層自己 符号化器におけるモダリティ間パラメータ共有の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Construction of visual codebook for speeding up visual-based Simultaneous Localization and Mapping2016

Author(s)

Organizer

Place of Presentation

Year and Date

濱上知樹横浜国立大学, 大学院工学研究院, 教授 (30334204)

[Presentation] パラメータ共有型マルチモーダル深層自己符号化器を用いた部分観測下多様体学習の検討2017

[Presentation] マルチモーダル深層自己符号化器におけるモダリティ間パラメータ共有の検討2016