研究概要 |
生物の行動基本原理は,報酬獲得,嫌悪回避であり,その行動制御の根底となる報酬,嫌悪の予測学習の神経回路機構を明らかにすることを研究目的とする.生物が複雑な環境で生存していくためには視覚や聴覚といったさまざまな感覚入力を手がかりにして予測的に危険や報酬を察知する必要がある.種々の手がかりによる報酬や嫌悪の予測は生後環境で学習(強化学習)され獲得されるが,この学習過程でどうやって手がかり刺激に価値の情報が連合されるのか,あるいはどうやって過去に与えられた予測情報を保持し時間遅れのある実際の報酬,嫌悪との誤差が検出され,新しい予測が更新されていくのかといった強化学習の本質が現状では理解されていない.その学習の本質に迫ることを研究の目的とした.上記報酬に基づく強化学習の計算理論では予測される報酬と実際に得られた報酬の差(報酬予測誤差)が脳内でどうやって計算されるのか、また、どのようにして学習された脳内情報を随意的な行動の文脈に反映させるのかを明らかにすることが実験的、理論的に最も重要な問題の一つであると思われる.脚橋被蓋核(PPTN)は脳幹のもっとも主要なアセチルコリン性細胞の核であり,古くから睡眠覚醒の調節,運動制御,注意や学習と関係が深いと考えられてきたが、本年度本研究者はPPTNからの入力信号が,報酬予測誤差信号生成、状況依存的な行動制御に重要な役割を果たしていることを示唆する生理実験データを得た.具体的には,PPTNのニューロン活動が「報酬の予測」あるいは「実際に与えられた報酬」のどちらかの情報に関与することまた、PPTNが学習された行動を文脈依存的に制御していることが明らかになった.以上の結果はPPTNが強化学習機構発現の鍵となる神経構造であることを示唆する.
|