本研究では標的となる光点を複数種類それぞれ違った場所に呈示し、実験者が定めたルールに従い、複数呈示された光点のうちある1種類の標的にむかってサッカードを行わせる課題(distractor課題)をサルに課し、課題学習前、課題学習中、課題学習後の黒質-脚橋被蓋核(PPTN)系のニューロン活動を記録解析した。 ニューロン記録実験中にサルに呈示するDistractorと標的との位置関係やタイミングを系統的に操作することにより誤差信号、引き起こされる運動を操作した。さらに、ターゲット呈示位置の空間的確からしさ、ターゲットに対する報酬の期待値等を系統的に制御することによって動機付けや空間的注意を操作し、PPTNニューロンを中心に強化学習に対する誤差信号、空間的注意、動機付けの関係を解析した。 PPTNの約20%のニューロンで課題と無関係に報酬を与えた後、約200msの潜時でニューロン活動の急激な上昇が見られた。これらのニューロンのほとんどで、成功試行で与えられる報酬量を変化させると課題開始前後から始まる持続的な活動の大きさが与えられる報酬量に従って変化した。これらのニューロンでは課題遂行中にも報酬後の反応がみられるが、そのニューロン活動は報酬が与えられた後、一過性の活動上昇として見られる場合と発火の抑制が見られる場合とがあった。以上の結果から、PPTNのニューロンの少なくとも一部は動機付けや報酬情報に関与しておりさらに、それが強化学習に関与することが示唆された。
|