Onto generalization of reinforcement learning agents through diversity and understanding of environments

Research Project

Project/Area Number	21H03570
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Single-year Grants
Section	一般
Review Section	Basic Section 62040:Entertainment and game informatics-related
Research Institution	The University of Tokyo
Principal Investigator	Kaneko Tomoyuki 東京大学, 大学院総合文化研究科, 教授 (00345068)
Project Period (FY)	2021-04-01 – 2024-03-31
Project Status	Completed (Fiscal Year 2023)
Budget Amount *help	¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000) Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000) Fiscal Year 2022: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000) Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	ゲームプログラミング
Outline of Research at the Start	本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
Outline of Final Research Achievements	This study focuses on reinforcement learning in perfect information games where AI agents master a given game throughout trials and errors in playing without human assistance such as AlphaZero. Our contribution includes mathematical models, implementation in computer software, and computational experiments for performance evaluation. A part of our results is already available as an open-source software with pre-trained models and more will become available in future.
Academic Significance and Societal Importance of the Research Achievements	強化学習は、教師あり学習で必要となる教師データを必要としない代わりに、試行錯誤の経験を積むための計算機資源を必要とする。この研究の遠い目標は、高性能なAIエージェントを少数の巨大組織のみが開発できる状況を変え、個人が自分自身のハードウェアで自分だけのエージェントを持てるようにすることにある。ゲームという限られた対象限定ではあるが、本研究は、一般的なハードウェアで十分に強いエージェントを作成可能となったことに貢献している。

Report

(4 results)

2023 Annual Research Report Final Research Report ( PDF )
2022 Annual Research Report
2021 Annual Research Report

Research Products
(12 results)

All 2023 2022 2021

All Journal Article (10 results) (of which Peer Reviewed: 10 results, Open Access: 2 results) Presentation (2 results)

[Journal Article] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023
- Author(s)
  Wan and Tang and Tian and Kaneko
- Journal Title
  
  IJCAI
  
  Volume: ijcai.2023 Pages: 4289-4298
- DOI
  10.24963/ijcai.2023/477
- Related Report
  2023 Annual Research Report 2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- Author(s)
  Xu and Kaneko
- Journal Title
  
  IEEE international joint conference on neural networks
  
  Volume: IJCNN54540.2023 Pages: 1-8
- DOI
  10.1109/ijcnn54540.2023.10191336
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- Author(s)
  Xu and Kaneko
- Journal Title
  
  IEEE ijcnn
  
  Volume: -
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022
- Author(s)
  Chen and Kaneko
- Journal Title
  
  IEEE international conference on games
  
  Volume: - Pages: 486-493
- DOI
  10.1109/cog51982.2022.9893713
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] 3x3盤面の2048の完全解析と強化学習の研究2022
- Author(s)
  山下金子中屋敷
- Journal Title
  
  第27回ゲームプログラミングワークショップ
  
  Volume: - Pages: 34-41
- Related Report
  2022 Annual Research Report
- Peer Reviewed
[Journal Article] Maximum entropy reinforcement learning in two-player perfect information games2021
- Author(s)
  T. Nakayashiki and T. Kaneko
- Journal Title
  
  IEEE SSCI
  
  Volume: - Pages: 1-8
- DOI
  10.1109/ssci50451.2021.9659991
- Related Report
  2021 Annual Research Report
- Peer Reviewed
[Journal Article] Local coordination in multi-agent reinforcement learning2021
- Author(s)
  F. Xu and T. Kaneko
- Journal Title
  
  International conference on technologies and applications of artificial intelligence
  
  Volume: -
- Related Report
  2021 Annual Research Report
- Peer Reviewed
[Journal Article] Hierarchical advantage for reinforcement learning in parameterized action space2021
- Author(s)
  Z. Hu and T. Kaneko
- Journal Title
  
  IEEE international conference on games
  
  Volume: - Pages: 1-8
- DOI
  10.1109/cog52621.2021.9619068
- Related Report
  2021 Annual Research Report
- Peer Reviewed
[Journal Article] Residual network for deep reinforcement learning with attention mechanism2021
- Author(s)
  H. Zhu and T. Kaneko
- Journal Title
  
  J. Inf. Sci. Eng.
  
  Volume: - Pages: 517-533
- Related Report
  2021 Annual Research Report
- Peer Reviewed
[Journal Article] 2048 への方策勾配法の適用2021
- Author(s)
  山下金子
- Journal Title
  
  第26回ゲームプログラミングワークショップ
  
  Volume: - Pages: 179-185
- NAID
  170000185730
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] 4x3 盤面の 2048 の完全解析2023
- Author(s)
  山下金子
- Organizer
  第28回ゲームプログラミングワークショップ
- Related Report
  2023 Annual Research Report
[Presentation] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023
- Author(s)
  出村金子
- Organizer
  第28回ゲームプログラミングワークショップ
- Related Report
  2023 Annual Research Report

Onto generalization of reinforcement learning agents through diversity and understanding of environments

Principal Investigator

Kaneko Tomoyuki 東京大学, 大学院総合文化研究科, 教授 (00345068)

¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)

Report

Research Products

[Journal Article] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

Author(s)

Journal Title

Related Report

[Journal Article] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] 3x3盤面の2048の完全解析と強化学習の研究2022

Author(s)

Journal Title

Related Report

[Journal Article] Maximum entropy reinforcement learning in two-player perfect information games2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Local coordination in multi-agent reinforcement learning2021

Author(s)

Journal Title

Related Report

[Journal Article] Hierarchical advantage for reinforcement learning in parameterized action space2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Residual network for deep reinforcement learning with attention mechanism2021

Author(s)

Journal Title

Related Report

[Journal Article] 2048 への方策勾配法の適用2021

Author(s)

Journal Title

NAID

Related Report

[Presentation] 4x3 盤面の 2048 の完全解析2023

Author(s)

Organizer

Related Report

[Presentation] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023

Author(s)

Organizer

Related Report