Project/Area Number |
20H04301
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥16,510,000 (Direct Cost: ¥12,700,000、Indirect Cost: ¥3,810,000)
Fiscal Year 2022: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2021: ¥5,330,000 (Direct Cost: ¥4,100,000、Indirect Cost: ¥1,230,000)
Fiscal Year 2020: ¥5,850,000 (Direct Cost: ¥4,500,000、Indirect Cost: ¥1,350,000)
|
Keywords | 強化学習 / 深層学習 / 深層強化学習 / ゲームAI / ゲーム / モデルベース |
Outline of Research at the Start |
本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略(方策)を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。
|
Outline of Final Research Achievements |
We developed a planning method that leverages multiple environment models to reduce the impact of errors, and a multi-step model that directly predicts states several steps ahead, successfully achieving efficient deep reinforcement learning. We also designed an intrinsic reward and a latent state representation based on action similarity for unsupervised reinforcement learning in partially observable environments, improving the generalization performance of reinforcement learning. Furthermore, we improved the design of rewards in roguelike games, reduced memory consumption in off-policy reinforcement learning, and realized the construction of highly interpretable strategies through the use of hierarchical reinforcement learning.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究成果は、モデルベース強化学習における環境モデルのより良い活用法、内発的報酬の設計、潜在状態表現の改善などを深層強化学習に導入することで、深層強化学習の性能を改善し、より効率的で汎用性の高い学習を実現することに貢献するものである。また、社会的には、本研究の成果は、ビデオゲームだけでなく、自動運転、ロボット制御、エネルギー管理など、実世界の多様なタスクに対する深層強化学習の適用可能性を高めることに貢献する可能性がある。
|