強化学習における状態空間や行動空間の学習は、人工知能の根幹問題ともいえる。特に線条体の神経細胞の情報表現はその情報処理過程を知る上で重要である。本研究では線条体の情報表現を統一する新しい仮説「線条体は、強化学習で必要となる価値関数や方策関数の基底表現であり、TD誤差とsalience 情報から学習する」を提案する。その上で、I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、 II)どのような情報表現が獲得されるのか、を推定・予測する。III)ニホンザルに多次元の状態空間から意思決定を行う課題を訓練し、大脳基底核と大脳皮質の神経活動記録を行い、情報表現が従来の価値情報や方策などの基底関数になり得るのかどうか検討した。 どのようなネットワークモデルで学習できるのかについては、大脳皮質をリカレントネットワークとして、その出力を受け取る線条体から、ランダムな結合でフィードバックする生物学的に妥当な多重リカレントを想定し、ドーパミンによって強化される可塑性を仮定したシミュレーションによって適切なターゲットを選択できることを、色属性と形属性にそれぞれ報酬を連合した課題において示した。この結果は、国内学会において発表した。この2つを統合した場合にどのような情報表現が獲得されるのか、今後このネットワークアーキテクチャと3要素学習則によって検討を重ねていく。 また、これまでに取得している線条体の神経活動データの再解析を行ったところ、線条体の神経表現が、現在のタスクだけでなく、過去のタスク要請に必要な情報表現を保持し続ける傾向があることが判明した。2つの課題を切り替えて行っていることから、将来の報酬最大化のためにあえて保持し続けることで、現在の課題だけでない表現を保持する機構が大脳基底核に存在することを示唆している。
|