汎用かつ再利用可能な方策に基づく階層強化学習

研究課題

研究課題/領域番号	23H03450
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61030:知能情報学関連小区分60030:統計科学関連合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
研究機関	東京大学
研究代表者	鶴岡慶雅東京大学, 大学院情報理工学系研究科, 教授 (50566362)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	17,680千円 (直接経費: 13,600千円、間接経費: 4,080千円) 2023年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
キーワード	強化学習 / 階層強化学習 / スキル / 言語モデル
研究開始時の研究の概要	近年、深層強化学習技術の急速な発展により、囲碁や将棋、ビデオゲームなどで人間を越えるレベルのAI が実現されているが、ロボットやプラント、交通やインフラの制御といった現実世界の意志決定問題に対する深層強化学習の応用は限定的である。現実のタスクの多くは、完了までに多くのステップを必要とする長期タスクであり、本研究プロジェクトでは、そのような問題に対して有効な階層強化学習手法の確立を目指す。具体的には、多様で有効なスキルを自動的に獲得し、さらにそれらを再利用可能にすることなどを通してエージェントの学習効率および汎化能力の向上を目指す。