2006 Fiscal Year Annual Research Report
脳幹-中脳神経回路による報酬予測誤差生成機構の解析
Project/Area Number |
18020019
|
Research Institution | Osaka University |
Principal Investigator |
小林 康 大阪大学, 生命機能研究科, 助教授 (60311198)
|
Keywords | サッケード / 強化学習 / サル |
Research Abstract |
本研究ではサッカード運動を指標として、中脳-脳幹の神経回路における感覚、運動、報酬信号による運動学習誤差信号生成の動的神経機構を明らかにすることを目的とした。 中脳ドーパミン細胞(DAcell)は報酬で条件付けされたcueや報酬に対してphasicなバースト応答をすることによって大脳基底核などに報酬予測誤差を送って強化学習時のシナプス可塑性を制御していると考えられている。DAcellにおいて報酬予測誤差がどのように計算されるかということは、強化学習を解明する上で重要な問題である。DAcellはさまざまな部位から興奮性、抑制性入力を受けているが、それぞれの入力信号の性質が明らかにされていないために、未だに誤差信号の計算過程がわかっていない。DAcellに対して興奮性入力がなければDAcellはバースト応答をすることが困難であるため、特にDAcellに対する興奮性入力の重要性が浮かび上がってくる。脳幹脚橋被蓋核(PPTN)は、運動制御、注意や学習と関係が深いと考えられてきたが、特に、上丘やDAcellに強力に投射しており、DAcellにおける誤差信号生成に重要な役割を果たしていると考えられる。また、脳幹、中脳、大脳基底核で閉ループ回路が考えられるが、この神経回路の動的情報処理過程と強化学習の関係を明らかにしたい。最近申請者はサルを用いた生理実験でPPTNニューロンが、1)報酬予測の度合いに無関係に一定の報酬反応、2)報酬予測の度合いによって大きさが変わる短潜時のcue反応に続く持続的応答、そして3)ゆっくりと起きる報酬予測的な持続応答を示すという結果を得た。これらのニュー一ロン活動の時間波形を線形加算すると、強化学習理論におけるDAcellによって表現される、いわゆるTD誤差(R(t)+rV(t+1)-V(t):R(t)報酬信号、V(t)価値関数、0<r<1)が計算できたことからPPTNの入力がDAcellにおける誤差信号生成に重要な役割を果たしていると思われる。
|