研究課題
基盤研究(B)
複数の環境モデルを活用して誤差の影響を軽減するプランニング手法および複数ステップ先の状態を直接予測するマルチステップモデルを開発し、効率的な深層強化学習の実現に成功した。また、部分観測環境における教師なし強化学習のための内発的報酬および行動類似性に基づく潜在状態表現を設計し、強化学習の汎化性能を向上させた。さらに、ローグライクゲームでの報酬設計の改良、オフポリシー強化学習でのメモリ消費の削減、階層強化学習の利用による解釈性の高い戦略の構築を実現した。
強化学習、自然言語処理、ゲームAI
本研究成果は、モデルベース強化学習における環境モデルのより良い活用法、内発的報酬の設計、潜在状態表現の改善などを深層強化学習に導入することで、深層強化学習の性能を改善し、より効率的で汎用性の高い学習を実現することに貢献するものである。また、社会的には、本研究の成果は、ビデオゲームだけでなく、自動運転、ロボット制御、エネルギー管理など、実世界の多様なタスクに対する深層強化学習の適用可能性を高めることに貢献する可能性がある。