推論としての強化学習が導く非線形TD誤差の機能的意義の解明

公募研究

研究領域	予測と行動の統一理論の開拓と検証
研究課題/領域番号	24H02176
研究種目	学術変革領域研究(A)
配分区分	補助金
審査区分	学術変革領域研究区分(Ⅳ)
研究機関	国立情報学研究所
研究代表者	小林泰介国立情報学研究所, 情報学プリンシプル研究系, 助教 (10796452)
研究期間 (年度)	2024-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	9,360千円 (直接経費: 7,200千円、間接経費: 2,160千円) 2025年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2024年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
キーワード	強化学習 / TD誤差 / アンサンブルモデル / モデル同定
研究開始時の研究の概要	本研究では，生物の意思決定モデルとして注目されている強化学習において，将来の収益に関する予測誤差と学習量との間に潜む多様な非線形性を確率推論としての強化学習に則って理論的に導出する．また，得られた非線形性を複合的に・選択的に継承可能なアンサンブルモデルを設計し，その更新原理を自由エネルギーなどの普遍的規範に基づき確立する．こうして導かれる新たな強化学習を駆使して，生物の意思決定モデルの精緻化を図る．