動物は遅れて得られる報酬よりすぐに得られる報酬を好む。これは遅延報酬の価値を主観的に割り引いているからであると考えられている。この割引の時間的特性は、遅延期間中にただ連続的に時間が経過するときには双曲型で、試行をまたいで離散的に時間ステップが進むときには指数型になることが示唆されている。脳内に連続的な時間と離散的な時間が存在し、役割の異なる割引を行っている可能性がある。遅延報酬に対する選好の時間特性は多種の動物で観測されており、同一の比較基準で脳内時間に関わる特性を比較するための土台として有用と考えられる。 研究代表者は先行研究で、強化学習理論の中で時間割引を取り入れた「割引価値問題」という枠組みを動物行動に適用すると、しばしば枠組み自体が破綻することを示した。そして、破綻しない枠組みを構築するためには、時間割引特性の異なる時点(イベント)が存在する必要があり、そのイベント間に経過する連続時間とイベントによって時間ステップが進むときでは異なる特性の割引となることが導出された。全く異なる目的のために導出した結果が、他の実験的知見と整合したため、提案した枠組みは本質に近づいている可能性が高いと考えられる。 この仮説を確かめるため、平成26年度は行動課題設計と連続時間での理論的枠組みの整備を行い、平田班(計画研究C01)との共同研究で類人猿での予備実験を開始した。平成27年度は、類人猿での実験の遂行を理論的にサポートした。また礒村班(公募研究D01)との共同研究で、海馬リップルに2種類のサブタイプがあることを発見し、それぞれが、過去の報酬と未来の報酬を反映していることを突き止めた。
|