木村らの従来の研究によって、ドーパミン細胞が、将来行う複数ステップの行動の報酬価値情報を担うことによって、現時点では最も望ましい選択肢の選択が不可能である場合においても将来的にトータルの報酬量を最大にする形で目標に到達するアルゴリズムを提供することを示唆する知見を得て、論文投稿し、査読者のアドバイスによって確証実験を行った。サルを実験動物に、ボタン押し行動によってスタートする3拓の行動選択課題を行わせた。すなわち、スタートを指示する視覚刺激を合図にボタンを押さえると、3種類の選択肢を示すボタンが提示され、サルは試行錯誤(Search)によってボタン選択を行った。すなわち、選択が報酬ボタンである場合には、2秒後に高周波のビープ音が現れ、報酬が与えられた。更に、次の試行で同じボタンを選択すれば(Repetition)追加の報酬が得られた。選択ボタンではない場合には低周波のビープ音が鳴り、報酬は与えられなかった。サルが選択ボタンの報酬確率(価値)ではなく、Search-Repetitionを合わせて2回分の報酬を得るまでの報酬の期待をしているかどうかを調べるために、報酬の水が供給されるチューブを予測的に舐める口の運動を定量的に解析した結果、確かに、現在の選択から2回分の報酬を得るまでの報酬の期待を表現し、時間的に遠くの将来の試行で得られる報酬価値を割り引いて表現することが分かった。この結果は、強化学習理論で推定される結果と矛盾しない。この応答は、複数ステップにわたる将来の試行を統合した報酬価値情報を担うと考えられるが、改めて学術雑誌(PNAS)に論文として投稿する。
|