報酬予測誤差計算と強化学習の神経回路機構：皮質線条体時間誤差仮説の理論的検討

公募研究

研究領域	予測と意思決定の脳内計算機構の解明による人間理解と応用
研究課題/領域番号	26120710
研究種目	新学術領域研究(研究領域提案型)
配分区分	補助金
審査区分	複合領域
研究機関	東京大学
研究代表者	森田賢治東京大学, 教育学研究科(研究院), 講師 (60446531)
研究期間 (年度)	2014-04-01 – 2016-03-31
研究課題ステータス	中途終了 (2015年度)
配分額 *注記	2,340千円 (直接経費: 1,800千円、間接経費: 540千円) 2015年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2014年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
キーワード	強化学習 / 大脳皮質 / 大脳基底核 / ドーパミン / 報酬予測誤差
研究実績の概要	筆者らは最近、強化学習の神経回路機構についての新たな仮説（Cortico-striatal TD (CSTD)仮説）を提案したが、その後、仮説において仮定した皮質基底核間の伝達の選択性について反論が成され、また、CSTD仮説は、基底核における価値学習の機構に関して広く受け入れられている仮説（Go/No-Go学習仮説）と対立するため、本研究は、CSTD仮説で仮定したような皮質基底核間の伝達の選択性が存在し得るかを理論的に検討し、また、これまでGo/No-Go学習仮説で説明されてきた事象がCSTD仮説によっても説明可能か調べ、両仮説を判別しうる検証方法を考案することを目的として行ってきた。本年度は、後者に関して、刺激-報酬の関係を学習した後、関係を反転させて再学習させる反転学習課題において、直接路または間接路の選択的な伝達阻害が、それぞれ最初の連合学習および反転後再学習の初期を選択的に阻害したという実験結果（Yawata et al., 2012, PNAS 109:12764）をCSTD仮説がいかに説明しうるかについて、モデルのさらなる検討を行った。具体的には、報酬の履歴に応じて学習率が変化するという仮定を加えることによって、実験結果をより良く説明しうるかについて検討を重ねて、その可能性があることを示した。また、反転学習課題に加えて、罰を避ける学習における直接路または間接路の選択的な伝達阻害に関する実験結果（直接路の阻害では学習は妨げられず、間接路の阻害では学習が妨げられるというもの）についても、CSTD仮説によって説明しうることを、上記反転学習課題の説明に用いたモデルと同様の構造を持つモデルのシミュレーションによって示した。
現在までの達成度 (段落)	27年度が最終年度であるため、記入しない。
今後の研究の推進方策	27年度が最終年度であるため、記入しない。