大脳皮質の異なる神経細胞集団(領域・細胞種)において異なる状態・行動表現法(successor representation (SR)と呼ばれる、ある状態・行動を後継の状態・行動への(時間割引を考慮した)累積将来滞在によって表すような表現法と、個々の状態・行動を個別的に表す表現法)が用いられている可能性、および、異なる皮質細胞集団が、大脳基底核線条体の直接路・間接路細胞(それぞれ正・負のフィードバックからの学習に大きく関わることが示唆されてきた)に均等ではなく入力する可能性を踏まえ、SRを用いる系と個別的表現を用いる系を組み合わせ、それぞれの系が正および負の報酬予測誤差から異なる学習率で学習し得るようなエージェントモデルを考えた。そして、グリッド空間内で報酬が高い確率で得られる位置が変化していくような動的な環境の空間的報酬探索獲得課題におけるエージェントの行動のシミュレーションを行った。その結果、その課題において、SRを用いる系が正の予測誤差からの方が負の予測誤差からよりも大きく学び、一方個別的表現を用いる系が負の予測誤差からの方が正の予測誤差からよりも大きく学ぶような組み合わせが、高いパフォーマンスを示すことを見出した。また、そうした組み合わせが、報告されている実験知見・示唆(異なる皮質領域・細胞種から直接路・間接路への結合・入力、異なる皮質細胞種の皮質内結合様態、SR様の表現が存在することが推測される部位など)と符合しうる可能性を検討・提案した。
|