不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

研究課題

研究課題/領域番号	21K19816
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分62:応用情報学およびその関連分野
研究機関	東京大学
研究代表者	金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)
研究期間 (年度)	2021-07-09 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円) 2023年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円) 2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	ゲームプログラミング
研究開始時の研究の概要	不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを作ることを目指す。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。
研究成果の概要	人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する技術を扱う。本研究では、不完全情報かつ多人数のゲームを題材に、潜在的な環境のモデルを含めて学習する技術を開発し、広い分野でAIエージェントの強化学習技術の適用を容易にするために研究を行った。数理的なモデルの検討と計算機実験による評価を行い、詳細は、学術論文として発表している。
研究成果の学術的意義や社会的意義	強化学習は、最近では LLMs のような自然言語を操る巨大AIモデルの学習まで含む、広いを応用範囲を持つこれからの社会の基盤技術である。この強化学習技術を成熟させ、誰もが使えるようになることは自由な研究ひいては社会活動のために重要と考えられる。AlphaZeroのような2人完全情報ゲームに対象を限定した場合と比べて、現実の諸問題への強化学習技術の応用はさまざまな難しさを含むが、本研究課題はその解消に向けて2人や完全情報という制限を外した際の難しさを扱った。

報告書

(4件)

研究成果
(13件)

すべて 2023 2022 2021

すべて雑誌論文 (11件) (うち査読あり 11件、オープンアクセス 4件) 学会発表 (2件)

[雑誌論文] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023
- 著者名/発表者名
  Wan and Tang and Tian and Kaneko
- 雑誌名
  
  IJCAI
  
  巻: ijcai.2023 ページ: 4289-4298
- DOI
  10.24963/ijcai.2023/477
- 関連する報告書
  2023 実績報告書 2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- 著者名/発表者名
  Xu and Kaneko
- 雑誌名
  
  IEEE international joint conference on neural networks
  
  巻: IJCNN54540.2023 ページ: 1-8
- DOI
  10.1109/ijcnn54540.2023.10191336
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- 著者名/発表者名
  Xu and Kaneko
- 雑誌名
  
  IEEE ijcnn
  
  巻: -
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022
- 著者名/発表者名
  Chen and Kaneko
- 雑誌名
  
  IEEE international conference on games
  
  巻: - ページ: 486-493
- DOI
  10.1109/cog51982.2022.9893713
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2022
- 著者名/発表者名
  Yi and Kaneko
- 雑誌名
  
  Advances in computer games 2021
  
  巻: - ページ: 3-13
- DOI
  10.1007/978-3-031-11488-5_1
- ISBN
  9783031114878, 9783031114885
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] 3x3盤面の2048の完全解析と強化学習の研究2022
- 著者名/発表者名
  山下金子中屋敷
- 雑誌名
  
  第27回ゲームプログラミングワークショップ
  
  巻: - ページ: 34-41
- 関連する報告書
  2022 実施状況報告書
- 査読あり
[雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2021
- 著者名/発表者名
  C. Yi and T. Kaneko
- 雑誌名
  
  Advances in computers and games
  
  巻: -
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[雑誌論文] Local coordination in multi-agent reinforcement learning2021
- 著者名/発表者名
  F. Xu and T. Kaneko
- 雑誌名
  
  International conference on technologies and applications of artificial intelligence
  
  巻: -
- 関連する報告書
  2021 実施状況報告書
- 査読あり
[雑誌論文] Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games2021
- 著者名/発表者名
  C. Yi and T. Kaneko
- 雑誌名
  
  26th game programming workshop
  
  巻: - ページ: 117-123
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Prediction of werewolf players by sentiment analysis of game dialogue in japanese2021
- 著者名/発表者名
  Y. Sun and T. Kaneko
- 雑誌名
  
  26th game programming workshop
  
  巻: - ページ: 186-191
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] ついたて王手どうぶつしょうぎの提案とCFRによる戦略の学習2021
- 著者名/発表者名
  中屋敷金子
- 雑誌名
  
  第26回ゲームプログラミングワークショップ
  
  巻: - ページ: 34-41
- NAID
  170000185756
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 4x3 盤面の 2048 の完全解析2023
- 著者名/発表者名
  山下金子
- 学会等名
  第28回ゲームプログラミングワークショップ
- 関連する報告書
  2023 実績報告書
[学会発表] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023
- 著者名/発表者名
  出村金子
- 学会等名
  第28回ゲームプログラミングワークショップ
- 関連する報告書
  2023 実績報告書

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

研究代表者

金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)

6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)

報告書

研究成果

[雑誌論文] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2022

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] 3x3盤面の2048の完全解析と強化学習の研究2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Local coordination in multi-agent reinforcement learning2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Prediction of werewolf players by sentiment analysis of game dialogue in japanese2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ついたて王手どうぶつしょうぎの提案とCFRによる戦略の学習2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 4x3 盤面の 2048 の完全解析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023

著者名/発表者名

学会等名

関連する報告書

金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)