Project/Area Number |
21H03570
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Kaneko Tomoyuki 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2022: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | ゲームプログラミング |
Outline of Research at the Start |
本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合 的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
|
Outline of Final Research Achievements |
This study focuses on reinforcement learning in perfect information games where AI agents master a given game throughout trials and errors in playing without human assistance such as AlphaZero. Our contribution includes mathematical models, implementation in computer software, and computational experiments for performance evaluation. A part of our results is already available as an open-source software with pre-trained models and more will become available in future.
|
Academic Significance and Societal Importance of the Research Achievements |
強化学習は、教師あり学習で必要となる教師データを必要としない代わりに、試行錯誤の経験を積むための計算機資源を必要とする。この研究の遠い目標は、高性能なAIエージェントを少数の巨大組織のみが開発できる状況を変え、個人が自分自身のハードウェアで自分だけのエージェントを持てるようにすることにある。ゲームという限られた対象限定ではあるが、本研究は、一般的なハードウェアで十分に強いエージェントを作成可能となったことに貢献している。
|