報酬予測誤差計算と強化学習の神経回路機構：皮質線条体時間誤差仮説の理論的検討

Publicly Offered Research

Project Area	Elucidation of neural computation for prediction and decision making: toward better human understanding and applications
Project/Area Number	26120710
Research Category	Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
Allocation Type	Single-year Grants
Review Section	Complex systems
Research Institution	The University of Tokyo
Principal Investigator	森田賢治東京大学, 教育学研究科(研究院), 講師 (60446531)
Project Period (FY)	2014-04-01 – 2016-03-31
Project Status	Discontinued (Fiscal Year 2015)
Budget Amount *help	¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000) Fiscal Year 2015: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2014: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Keywords	強化学習 / 大脳皮質 / 大脳基底核 / ドーパミン / 報酬予測誤差
Outline of Annual Research Achievements	筆者らは最近、強化学習の神経回路機構についての新たな仮説（Cortico-striatal TD (CSTD)仮説）を提案したが、その後、仮説において仮定した皮質基底核間の伝達の選択性について反論が成され、また、CSTD仮説は、基底核における価値学習の機構に関して広く受け入れられている仮説（Go/No-Go学習仮説）と対立するため、本研究は、CSTD仮説で仮定したような皮質基底核間の伝達の選択性が存在し得るかを理論的に検討し、また、これまでGo/No-Go学習仮説で説明されてきた事象がCSTD仮説によっても説明可能か調べ、両仮説を判別しうる検証方法を考案することを目的として行ってきた。本年度は、後者に関して、刺激-報酬の関係を学習した後、関係を反転させて再学習させる反転学習課題において、直接路または間接路の選択的な伝達阻害が、それぞれ最初の連合学習および反転後再学習の初期を選択的に阻害したという実験結果（Yawata et al., 2012, PNAS 109:12764）をCSTD仮説がいかに説明しうるかについて、モデルのさらなる検討を行った。具体的には、報酬の履歴に応じて学習率が変化するという仮定を加えることによって、実験結果をより良く説明しうるかについて検討を重ねて、その可能性があることを示した。また、反転学習課題に加えて、罰を避ける学習における直接路または間接路の選択的な伝達阻害に関する実験結果（直接路の阻害では学習は妨げられず、間接路の阻害では学習が妨げられるというもの）についても、CSTD仮説によって説明しうることを、上記反転学習課題の説明に用いたモデルと同様の構造を持つモデルのシミュレーションによって示した。
Research Progress Status	27年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	27年度が最終年度であるため、記入しない。