中脳ドーパミン系による、長期的な将来報酬の価値と予測誤差の表現機構の解明

Research Project

Project/Area Number	08J02233
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	Neurophysiology and muscle physiology
Research Institution	Kyoto Prefectural University of Medicine
Principal Investigator	榎本一紀 Kyoto Prefectural University of Medicine, 医学部, 特別研究員(DC2)
Project Period (FY)	2008 – 2009
Project Status	Completed (Fiscal Year 2009)
Budget Amount *help	¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2009: ¥400,000 (Direct Cost: ¥400,000) Fiscal Year 2008: ¥500,000 (Direct Cost: ¥500,000)
Keywords	ドーパミン / 報酬 / 価値 / 学習 / 霊長類 / 電気生理 / 強化学習 / 大脳基底核
Research Abstract	本研究は、動物がゴールに向かって行動するうえで、学習や意志決定に関わっている大脳皮質-基底核回路において中心的な役割を担っているドーパミン系による報酬情報の表現が、複数回の将来報酬の価値を反映しているという仮説を明らかにすることを目的とする。ニホンザルを被験体として、報酬を得るために3つの選択肢から適切な行動を選択する、1ブロックが複数ステップの報酬獲得からなる課題を学習させ、課題遂行中のドーパミン細胞の活動を電気生理学手法を用いて記録した。3頭の動物から記録された185個のドーパミン細胞の活動と、同時に記録した行動データを解析に用いた。報酬である水が送出される口元のパイプへの舌なめ運動は、報酬確率が高いステップ同様、将来報酬の回数が多く期待されるステップにおいても長い持続時間を示し、動物が複数の将来報酬を期待して課題を行っていることが確かめられた。報酬期待情報を表現することが知られている、ステップ開始の合図である視覚刺激に対するドーパミン細胞の応答も複数回の報酬価値を反映し、報酬価値が高いほど高い発火頻度を示した。強化学習理論に基づいたシミュレーションの結果、将来報酬価値の割引率は、行動データから得られた値と細胞活動から得られた値とでほぼ同じであった。また、報酬予測誤差を反映することが知られている強化因子に対する応答も、複数回の報酬価値を含んだ予測誤差の値によって高い精度で推定できた。更に、課題の学習過程で記録した行動データと細胞活動を調べたところ、報酬割引率の値は学習初期で高く、後期で低かった。つまり、学習が進むにつれて、動物はより将来の報酬まで見込んで課題を行うようになり、細胞活動もそれに伴って調節されることが示唆された。以上の結果から、ドーパミン細胞は学習によって長期的な将来報酬価値と予測誤差の表現を獲得することが明らかになった。