2021 年度実績報告書

環境モデルと戦略の同時学習による深層強化学習

研究課題

研究課題/領域番号	20H04301
研究機関	東京大学
研究代表者	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	深層強化学習
研究実績の概要	部分観測環境における深層強化学習における報酬設計の問題に対処するため、部分観測環境における教師なし強化学習のアルゴリズムの開発を行った。具体的には、部分観測性に対処するための記憶機構、および相互情報量に基づいた内発的報酬を設計した。本内発的報酬は、観測情報が限られている状態空間を優先的に探索し、有効な記憶を学習することを可能にする。実験では、外部報酬を使用せずに、部分観測環境において有益な方策を学習することに成功した。強化学習の問題点の一つとして、学習時に見たことがない未知の環境においてエージェントの性能が大きく低下することが知られている。その問題に対処するため、行動類似性に基づく潜在状態表現を利用することで、モデルベース強化学習の汎化性能を向上させる手法の開発を行った。提案手法を背景画像が変化する環境における連続行動空間の制御タスクに適用し、汎化性能の検証を行なったところ、一部のタスクにおいて汎化性能の向上が見られた。深層強化学習における報酬設計の問題に対処するため、これまでに様々な内発的報酬の仕組みが提案されている。本研究では、状態遷移の予測不可能性と、状態の新規性をベースにした内発的報酬を組み合わせることで、noisy-TV problem と呼ばれる、ランダムな状態遷移が継続して起きる状況にエージェントがトラップされる問題の解消を試みた。実験の結果、探索が難しいとされるベンチマークでの性能向上を確認し、新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由モデルベース強化学習の重要な課題である環境モデルのロバスト性、および深層強化学習の本質的な問題のひとつである報酬設計の問題に対して、上記の研究成果が得られた。複雑で報酬設計が難しい環境における深層強化学習の実現のためには、まだ解決するべき問題が多く残っているものの、研究音進捗状況としてはおおむね順調といえる。
今後の研究の推進方策	本年度は、昨年度の研究成果をさらに発展させることで、モデルベース深層強化学習のさらなる性能向上を目指す。強化学習一般の問題として、報酬設計の難しさが指摘されている。効率的なエージェントの学習のためには、エージェントが報酬を頻繁に得られる必要があるが、そのような「密な」報酬を人間が設計することは簡単ではない。この問題に対して、エージェントに内発的な報酬を持たせることにより、報酬が存在しない、あるいは報酬が疎な状況であっても有用な「スキル」をエージェントに獲得させられることが知られている。そこで、本研究プロジェクトでは、昨年度の研究によって得られた、将来的な報酬に影響するような要素のみに着目した環境モデル、およびエージェントの効率的な記憶メカニズムを、新たな内発的報酬の発生メカニズムと組み合わせることにより、報酬設計が難しい幅広いタスクに対して、サンプル効率の高い学習を行うことができるエージェントの開発を目指す。

研究成果
(6件)

すべて 2022 2021

すべて学会発表 (6件) (うち国際学会 2件)

[学会発表] HiRL: Dealing with Non-stationarity in Hierarchical Reinforcement Learning via High-level Relearning2022
- 著者名/発表者名
  Yuhang Jiao
- 学会等名
  AAAI-22 Workshop on Reinforcement Learning in Games
- 国際学会
[学会発表] 選択的注意機構を用いたロバストな強化学習手法の実現2021
- 著者名/発表者名
  岩瀬諒
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
[学会発表] 世界モデルによる好奇心と新規性に基づく探索2021
- 著者名/発表者名
  脇聡志
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
[学会発表] リセット機能を活用したシミュレータにおける効率的な方策学習2021
- 著者名/発表者名
  橋本大世
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
[学会発表] 外部記憶を用いた部分観測環境における教師なし強化学習2021
- 著者名/発表者名
  中本光彦
- 学会等名
  第26回ゲームプログラミングワークショップ (GPW21)
[学会発表] Unsupervised Reinforcement Learning for Partially Observable Environments Using External Memory2021
- 著者名/発表者名
  Mitsuhiko Nakamoto
- 学会等名
  NeurIPS 2021 Workshop on Ecological Theory of Reinforcement Learning
- 国際学会

2021 年度 実績報告書

環境モデルと戦略の同時学習による深層強化学習

研究代表者

鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)

現在までの達成度 (区分)

理由

研究成果

[学会発表] HiRL: Dealing with Non-stationarity in Hierarchical Reinforcement Learning via High-level Relearning2022

著者名/発表者名

学会等名

[学会発表] 選択的注意機構を用いたロバストな強化学習手法の実現2021

著者名/発表者名

学会等名

[学会発表] 世界モデルによる好奇心と新規性に基づく探索2021

著者名/発表者名

学会等名

[学会発表] リセット機能を活用したシミュレータにおける効率的な方策学習2021

著者名/発表者名

学会等名

[学会発表] 外部記憶を用いた部分観測環境における教師なし強化学習2021

著者名/発表者名

学会等名

[学会発表] Unsupervised Reinforcement Learning for Partially Observable Environments Using External Memory2021

著者名/発表者名

学会等名

2021 年度実績報告書

鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)