世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

研究課題

研究課題/領域番号	21H03570
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分62040:エンタテインメントおよびゲーム情報学関連
研究機関	東京大学
研究代表者	金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円) 2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円) 2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
キーワード	ゲームプログラミング
研究開始時の研究の概要	本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
研究成果の概要	思考ゲームを題材に、AlphaZero のように知識無しの状態から試行錯誤を通じてエージェントに適切な振る舞いを自発的に身につけさせる強化学習の研究を進めた。特に、将棋、囲碁、2048において、理論的な数理モデルの検討と計算機プログラムとしての実装、計算機実験による性能の評価を行った。成果の一部はオープンソースのプログラムと事前学習済みモデルとしてすでに公開済みであり、残りの部分も今後整備を進めて公開する予定である。
研究成果の学術的意義や社会的意義	強化学習は、教師あり学習で必要となる教師データを必要としない代わりに、試行錯誤の経験を積むための計算機資源を必要とする。この研究の遠い目標は、高性能なAIエージェントを少数の巨大組織のみが開発できる状況を変え、個人が自分自身のハードウェアで自分だけのエージェントを持てるようにすることにある。ゲームという限られた対象限定ではあるが、本研究は、一般的なハードウェアで十分に強いエージェントを作成可能となったことに貢献している。

報告書

(4件)

研究成果
(12件)

すべて 2023 2022 2021

すべて雑誌論文 (10件) (うち査読あり 10件、オープンアクセス 2件) 学会発表 (2件)

[雑誌論文] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023
- 著者名/発表者名
  Wan and Tang and Tian and Kaneko
- 雑誌名
  
  IJCAI
  
  巻: ijcai.2023 ページ: 4289-4298
- DOI
  10.24963/ijcai.2023/477
- 関連する報告書
  2023 実績報告書 2022 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- 著者名/発表者名
  Xu and Kaneko
- 雑誌名
  
  IEEE international joint conference on neural networks
  
  巻: IJCNN54540.2023 ページ: 1-8
- DOI
  10.1109/ijcnn54540.2023.10191336
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023
- 著者名/発表者名
  Xu and Kaneko
- 雑誌名
  
  IEEE ijcnn
  
  巻: -
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022
- 著者名/発表者名
  Chen and Kaneko
- 雑誌名
  
  IEEE international conference on games
  
  巻: - ページ: 486-493
- DOI
  10.1109/cog51982.2022.9893713
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] 3x3盤面の2048の完全解析と強化学習の研究2022
- 著者名/発表者名
  山下金子中屋敷
- 雑誌名
  
  第27回ゲームプログラミングワークショップ
  
  巻: - ページ: 34-41
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Maximum entropy reinforcement learning in two-player perfect information games2021
- 著者名/発表者名
  T. Nakayashiki and T. Kaneko
- 雑誌名
  
  IEEE SSCI
  
  巻: - ページ: 1-8
- DOI
  10.1109/ssci50451.2021.9659991
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] Local coordination in multi-agent reinforcement learning2021
- 著者名/発表者名
  F. Xu and T. Kaneko
- 雑誌名
  
  International conference on technologies and applications of artificial intelligence
  
  巻: -
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] Hierarchical advantage for reinforcement learning in parameterized action space2021
- 著者名/発表者名
  Z. Hu and T. Kaneko
- 雑誌名
  
  IEEE international conference on games
  
  巻: - ページ: 1-8
- DOI
  10.1109/cog52621.2021.9619068
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] Residual network for deep reinforcement learning with attention mechanism2021
- 著者名/発表者名
  H. Zhu and T. Kaneko
- 雑誌名
  
  J. Inf. Sci. Eng.
  
  巻: - ページ: 517-533
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] 2048 への方策勾配法の適用2021
- 著者名/発表者名
  山下金子
- 雑誌名
  
  第26回ゲームプログラミングワークショップ
  
  巻: - ページ: 179-185
- NAID
  170000185730
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[学会発表] 4x3 盤面の 2048 の完全解析2023
- 著者名/発表者名
  山下金子
- 学会等名
  第28回ゲームプログラミングワークショップ
- 関連する報告書
  2023 実績報告書
[学会発表] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023
- 著者名/発表者名
  出村金子
- 学会等名
  第28回ゲームプログラミングワークショップ
- 関連する報告書
  2023 実績報告書

世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上

研究代表者

金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)

6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)

報告書

研究成果

[雑誌論文] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 3x3盤面の2048の完全解析と強化学習の研究2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Maximum entropy reinforcement learning in two-player perfect information games2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Local coordination in multi-agent reinforcement learning2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Hierarchical advantage for reinforcement learning in parameterized action space2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Residual network for deep reinforcement learning with attention mechanism2021

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 2048 への方策勾配法の適用2021

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 4x3 盤面の 2048 の完全解析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023

著者名/発表者名

学会等名

関連する報告書

金子知適東京大学, 大学院総合文化研究科, 教授 (00345068)