2023 Fiscal Year Annual Research Report

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

Research Project

Project/Area Number	21K19816
Research Institution	The University of Tokyo
Principal Investigator	金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)
Project Period (FY)	2021-07-09 – 2024-03-31
Keywords	ゲームプログラミング
Outline of Annual Research Achievements	人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。学習アルゴリズムの性能を評価する環境として、ゲームをプレイするエージェントを対象とすることは広く行われている。本課題では、不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを目指して研究を行った。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを構築し性能向上を目指した。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮したモデル化と探索が重要である。ポーカーで成果を上げた Counterfactual Regret の最小化と比較すると、3人以上の環境での評価と重要な範囲に絞って強化学習を行うことによる計算コストを軽減に重点がおかれている。複数の環境においてそれぞれ多様な振る舞いを個性として持つエージェント群を強化学習をベースに作成し、協調と個別の目標の達成度合いに関する数理的な性質の検討と、様々なモデルでの計算機実験により効果の確認を行った。

Research Products
(4 results)

All 2023

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (2 results)

[Journal Article] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023
- Author(s)
  Wan and Tang and Tian and Kaneko
- Journal Title
  
  IJCAI
  
  Volume: ijcai.2023 Pages: 4289-4298
- DOI
  10.24963/ijcai.2023/477
- Peer Reviewed / Open Access
[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- Author(s)
  Xu and Kaneko
- Journal Title
  
  IEEE international joint conference on neural networks
  
  Volume: IJCNN54540.2023 Pages: 1-8
- DOI
  10.1109/IJCNN54540.2023.10191336
- Peer Reviewed
[Presentation] 4x3 盤面の 2048 の完全解析2023
- Author(s)
  山下金子
- Organizer
  第28回ゲームプログラミングワークショップ
[Presentation] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023
- Author(s)
  出村金子
- Organizer
  第28回ゲームプログラミングワークショップ

2023 Fiscal Year Annual Research Report

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

Principal Investigator

金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)

Research Products

[Journal Article] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023

Author(s)

Journal Title

DOI

[Journal Article] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

Author(s)

Journal Title

DOI

[Presentation] 4x3 盤面の 2048 の完全解析2023

Author(s)

Organizer

[Presentation] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023

Author(s)

Organizer

金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)