2008 Fiscal Year Annual Research Report
強化学習仮説に基づく淡蒼球の役割について明らかにする研究
Project/Area Number |
18700383
|
Research Institution | Kyoto Prefectural University of Medicine |
Principal Investigator |
上田 康雅 Kyoto Prefectural University of Medicine, 医学研究科, 助教 (60332954)
|
Keywords | 大脳基底核 / 強化学習 / 行動選択 / 線条体 / 淡蒼球 / ドーパミン |
Research Abstract |
線条体の学習のモデルとして、行動選択の前に期待される将来の報酬と、行動選択後によって得られる報酬との差(報酬予測誤差)を使って、それぞれの選択肢の価値(行動価値)を更新し、最終的に期待される報酬が最大となるような行動を学習するという強化学習モデルが提唱されている(Sutton, R. and Barto, A. G. 1998)。線条体へ投射している中脳ドーパミン細胞が、この報酬予測誤差を反映した放電活動を示すことが報告され(Schultz W et.al., 1997)、この投射を受ける線条体では、多くの細胞が行動価値を反映した放電活動を示すことが報告されている(Samejima et.al., 2005)。行動価値の情報は、解剖学的な知見から線条体から淡蒼球へと送られていると考えられている。これらの線条体の細胞によってコードされている行動価値を使って、線条体以降でどのように行動選択が行われているのかについて明らかにすることが本研究課題の目的であった。この実験を遂行するためには、強化学習モデルで提唱されているように、行動価値の報酬予測誤差を使った更新と、強化学習モデルで説明される行動価値を利用した適切な行動選択に、ドーパミンを介した情報入力が重要であることを示しておく必要がある。本年度は線条体に対して、ドーパミンD1受容体の拮抗薬およびドーパミンD2受容体拮抗薬を注入し、サルの行動選択に影響が現れるか否かを調べた。この結果線条体に入る報酬予測誤差情報を遮断することによって、長期の報酬履歴に基づいた適切な行動選択が阻害されることが示された。しかし、短期の報酬履歴に基づいた行動選択は保存されていた。一方で、D1受容体の阻害で見られたような行動選択の障害は、D2受容体拮抗薬の注入と生理食塩水の注入によっては観察されなかった。このことから、ドーパミンD1受容体を介した報酬予測誤差情報は、線条体内の行動価値を表現する細胞の情報の更新に重要な役割を担っており、このことが行動選択にとって重要であることが示された。
|
Research Products
(2 results)