研究課題/領域番号 |
20H04301
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62040:エンタテインメントおよびゲーム情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
16,510千円 (直接経費: 12,700千円、間接経費: 3,810千円)
2022年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2021年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
2020年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
|
キーワード | 強化学習 / 深層学習 / 深層強化学習 / ゲームAI / ゲーム / モデルベース |
研究開始時の研究の概要 |
本研究では、状態空間が大きく行動の自由度の高いゲームに適用可能なモデルベース深層強化学習手法を開発することを目的とする。具体的には、環境モデルとエージェントの戦略(方策)を同時に学習することで、ゲーム内のタスクに適した環境モデルの学習を可能にする。さらに、環境モデルを利用した実行時先読み、および、複数の環境モデル間の予測誤差等を利用した内部報酬の導入によりサンプル効率の高い学習を可能にすることを目指す。
|
研究成果の概要 |
複数の環境モデルを活用して誤差の影響を軽減するプランニング手法および複数ステップ先の状態を直接予測するマルチステップモデルを開発し、効率的な深層強化学習の実現に成功した。また、部分観測環境における教師なし強化学習のための内発的報酬および行動類似性に基づく潜在状態表現を設計し、強化学習の汎化性能を向上させた。さらに、ローグライクゲームでの報酬設計の改良、オフポリシー強化学習でのメモリ消費の削減、階層強化学習の利用による解釈性の高い戦略の構築を実現した。
|
研究成果の学術的意義や社会的意義 |
本研究成果は、モデルベース強化学習における環境モデルのより良い活用法、内発的報酬の設計、潜在状態表現の改善などを深層強化学習に導入することで、深層強化学習の性能を改善し、より効率的で汎用性の高い学習を実現することに貢献するものである。また、社会的には、本研究の成果は、ビデオゲームだけでなく、自動運転、ロボット制御、エネルギー管理など、実世界の多様なタスクに対する深層強化学習の適用可能性を高めることに貢献する可能性がある。
|