2022 年度実績報告書

環境モデルと戦略の同時学習による深層強化学習

研究課題

研究課題/領域番号	20H04301
研究機関	東京大学
研究代表者	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	深層強化学習 / ゲームAI
研究実績の概要	本研究プロジェクトが対象とするゲームAI環境のひとつに、ローグライクゲームと呼ばれるダンジョン探索型環境がある。先行研究では「好奇心」による内部報酬を用いた手法が利用されているが、探索済み状態を過剰に避けるなどの問題点が指摘されている。そこで本研究では、ローグライク環境において３種類の報酬設計で学習を行い、提案手法による内発的報酬設計によって学習が促進されることを確認した。 Off-policy 強化学習では、エージェントが環境から収集した遷移データを保持するために大量のメモリが消費される。本研究では，遷移データの学習における優先度を計算し、相対的に重要でないと判断されたものから破棄することで、バッファによるメモリ消費を節約する手法を提案した。本手法により、画像観測の環境において、性能を低下させることなく、リプレイバッファによるメモリ消費を大幅に削減できることが明らかになった。不完全情報ゲームにおいては、対戦相手の状態など、自分からは見えない情報を、観測可能な情報から推測することが重要である。そこで本研究では、代表的な不完全情報ゲームである麻雀を題材として、相手の手牌を深層学習によって推定する手法を提案した。実験の結果、近年注目を集めている深層学習モデルであるTransformer を用いて自己回帰的に推定することで高精度の推定が可能であることが明らかになった。強化学習に基づくゲームAI の課題のひとつに、エージェントがどのような戦略に基づいて行動を決定しているのかが人間にとってブラックボックスであるという問題がある。そこで本研究では、説明可能なゲームAI を実現する方法として階層強化学習を用いる手法を提案した。実験では、簡単なAtari環境であるブロック崩しにおいて、AIの戦略を人間が容易に理解可能な形で可視化できることが明らかになった。
現在までの達成度 (段落)	令和4年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和4年度が最終年度であるため、記入しない。

研究成果
(6件)

すべて 2022

すべて学会発表 (6件) (うち国際学会 1件)

[学会発表] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022
- 著者名/発表者名
  Hayato Watahiki and Yoshimasa Tsuruoka
- 学会等名
  ICLR 2022 Workshop on Generalizable Policy Learning in the Physical World
- 国際学会
[学会発表] 階層強化学習を用いた説明可能なゲームAI2022
- 著者名/発表者名
  岩佐拓真, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
[学会発表] Transformerを用いた麻雀における手牌推定2022
- 著者名/発表者名
  大神卓也, 奈良亮耶, 天野克敏, 今宿祐希, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
[学会発表] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022
- 著者名/発表者名
  加賀谷昂輝, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
[学会発表] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022
- 著者名/発表者名
  海野良介, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)
[学会発表] 補助的なエージェントを用いたマルチエージェント強化学習2022
- 著者名/発表者名
  中田惇貴, 鶴岡慶雅
- 学会等名
  第27回ゲームプログラミングワークショップ (GPW22)

2022 年度 実績報告書

環境モデルと戦略の同時学習による深層強化学習

研究代表者

鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)

研究成果

[学会発表] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022

著者名/発表者名

学会等名

[学会発表] 階層強化学習を用いた説明可能なゲームAI2022

著者名/発表者名

学会等名

[学会発表] Transformerを用いた麻雀における手牌推定2022

著者名/発表者名

学会等名

[学会発表] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022

著者名/発表者名

学会等名

[学会発表] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022

著者名/発表者名

学会等名

[学会発表] 補助的なエージェントを用いたマルチエージェント強化学習2022

著者名/発表者名

学会等名

2022 年度実績報告書

鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)