2022 Fiscal Year Annual Research Report

環境モデルと戦略の同時学習による深層強化学習

Research Project

Project/Area Number	20H04301
Research Institution	The University of Tokyo
Principal Investigator	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	深層強化学習 / ゲームAI
Outline of Annual Research Achievements	本研究プロジェクトが対象とするゲームAI環境のひとつに、ローグライクゲームと呼ばれるダンジョン探索型環境がある。先行研究では「好奇心」による内部報酬を用いた手法が利用されているが、探索済み状態を過剰に避けるなどの問題点が指摘されている。そこで本研究では、ローグライク環境において３種類の報酬設計で学習を行い、提案手法による内発的報酬設計によって学習が促進されることを確認した。 Off-policy 強化学習では、エージェントが環境から収集した遷移データを保持するために大量のメモリが消費される。本研究では，遷移データの学習における優先度を計算し、相対的に重要でないと判断されたものから破棄することで、バッファによるメモリ消費を節約する手法を提案した。本手法により、画像観測の環境において、性能を低下させることなく、リプレイバッファによるメモリ消費を大幅に削減できることが明らかになった。不完全情報ゲームにおいては、対戦相手の状態など、自分からは見えない情報を、観測可能な情報から推測することが重要である。そこで本研究では、代表的な不完全情報ゲームである麻雀を題材として、相手の手牌を深層学習によって推定する手法を提案した。実験の結果、近年注目を集めている深層学習モデルであるTransformer を用いて自己回帰的に推定することで高精度の推定が可能であることが明らかになった。強化学習に基づくゲームAI の課題のひとつに、エージェントがどのような戦略に基づいて行動を決定しているのかが人間にとってブラックボックスであるという問題がある。そこで本研究では、説明可能なゲームAI を実現する方法として階層強化学習を用いる手法を提案した。実験では、簡単なAtari環境であるブロック崩しにおいて、AIの戦略を人間が容易に理解可能な形で可視化できることが明らかになった。
Research Progress Status	令和4年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和4年度が最終年度であるため、記入しない。

Research Products
(6 results)

All 2022

All Presentation (6 results) (of which Int'l Joint Research: 1 results)

[Presentation] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022
- Author(s)
  Hayato Watahiki and Yoshimasa Tsuruoka
- Organizer
  ICLR 2022 Workshop on Generalizable Policy Learning in the Physical World
- Int'l Joint Research
[Presentation] 階層強化学習を用いた説明可能なゲームAI2022
- Author(s)
  岩佐拓真, 鶴岡慶雅
- Organizer
  第27回ゲームプログラミングワークショップ (GPW22)
[Presentation] Transformerを用いた麻雀における手牌推定2022
- Author(s)
  大神卓也, 奈良亮耶, 天野克敏, 今宿祐希, 鶴岡慶雅
- Organizer
  第27回ゲームプログラミングワークショップ (GPW22)
[Presentation] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022
- Author(s)
  加賀谷昂輝, 鶴岡慶雅
- Organizer
  第27回ゲームプログラミングワークショップ (GPW22)
[Presentation] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022
- Author(s)
  海野良介, 鶴岡慶雅
- Organizer
  第27回ゲームプログラミングワークショップ (GPW22)
[Presentation] 補助的なエージェントを用いたマルチエージェント強化学習2022
- Author(s)
  中田惇貴, 鶴岡慶雅
- Organizer
  第27回ゲームプログラミングワークショップ (GPW22)

2022 Fiscal Year Annual Research Report

環境モデルと戦略の同時学習による深層強化学習

Principal Investigator

鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)

Research Products

[Presentation] One-Shot Imitation with Skill Chaining using a Goal-Conditioned Policy in Long-Horizon Control2022

Author(s)

Organizer

[Presentation] 階層強化学習を用いた説明可能なゲームAI2022

Author(s)

Organizer

[Presentation] Transformerを用いた麻雀における手牌推定2022

Author(s)

Organizer

[Presentation] 一時的好奇心に基づく内発的報酬設計を用いた強化学習によるローグライクゲームの学習2022

Author(s)

Organizer

[Presentation] Surprise とOn-policyness に基づく優先度による省メモリな強化学習2022

Author(s)

Organizer

[Presentation] 補助的なエージェントを用いたマルチエージェント強化学習2022

Author(s)

Organizer

鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)