2021 Fiscal Year Annual Research Report

世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

Research Project

Project/Area Number	21H03570
Research Institution	The University of Tokyo
Principal Investigator	金子知適東京大学, 大学院総合文化研究科, 准教授 (00345068)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	ゲームプログラミング
Outline of Annual Research Achievements	本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。思考ゲーム、特に囲碁、将棋、チェスなどの二人完全情報ゲームでは、ここ数年のAlphaGoからAlphaZero までの研究で、既存手法で作成されたAIプレイヤや人間の強さを越えて、大きな技術の進歩があった。本応募課題ではそれらの成果を踏まえて、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 深層強化学習において、抽象化と多様性を扱う技術を核に手法のプロトタイプを作成し、理論的検証と予備的な計算機実験を行った。全体として多様な環境で多様なエージェントを作成するフレームワークを目指すが、今年度は必要となる複数の技術について個別に切り出して評価した。そのうちエントロピー最大化強化学習を敵対的他者がいる環境に適用する技術については、国際会議で発表済みである。他に、複数の技術について投稿準備中である。
Strategy for Future Research Activity	研究計画書で計画した方針で研究を進める。

Research Products
(5 results)

All 2021

All Journal Article (5 results) (of which Peer Reviewed: 5 results, Open Access: 1 results)

[Journal Article] Maximum entropy reinforcement learning in two-player perfect information games2021
- Author(s)
  T. Nakayashiki and T. Kaneko
- Journal Title
  
  IEEE SSCI
  
  Volume: - Pages: 1-8
- DOI
  10.1109/SSCI50451.2021.9659991
- Peer Reviewed
[Journal Article] Local coordination in multi-agent reinforcement learning2021
- Author(s)
  F. Xu and T. Kaneko
- Journal Title
  
  International conference on technologies and applications of artificial intelligence
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] Hierarchical advantage for reinforcement learning in parameterized action space2021
- Author(s)
  Z. Hu and T. Kaneko
- Journal Title
  
  IEEE international conference on games
  
  Volume: - Pages: 1-8
- DOI
  10.1109/CoG52621.2021.9619068
- Peer Reviewed
[Journal Article] Residual network for deep reinforcement learning with attention mechanism2021
- Author(s)
  H. Zhu and T. Kaneko
- Journal Title
  
  J. Inf. Sci. Eng.
  
  Volume: - Pages: 517-533
- DOI
  10.6688/JISE.202105_37(3).0002
- Peer Reviewed
[Journal Article] 2048 への方策勾配法の適用2021
- Author(s)
  山下金子
- Journal Title
  
  第26回ゲームプログラミングワークショップ
  
  Volume: - Pages: 179-185
- Peer Reviewed / Open Access

2021 Fiscal Year Annual Research Report

世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

Principal Investigator

金子 知適 東京大学, 大学院総合文化研究科, 准教授 (00345068)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Maximum entropy reinforcement learning in two-player perfect information games2021

Author(s)

Journal Title

DOI

[Journal Article] Local coordination in multi-agent reinforcement learning2021

Author(s)

Journal Title

[Journal Article] Hierarchical advantage for reinforcement learning in parameterized action space2021

Author(s)

Journal Title

DOI

[Journal Article] Residual network for deep reinforcement learning with attention mechanism2021

Author(s)

Journal Title

DOI

[Journal Article] 2048 への方策勾配法の適用2021

Author(s)

Journal Title

金子知適東京大学, 大学院総合文化研究科, 准教授 (00345068)