Publicly Offered Research
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
強化学習における状態空間や行動空間の学習は、人工知能の根幹問題ともいえる。強化学習を実現する神経回路として大脳基底核が注目されているが、状態空間や行動空間が切り替わる課題における情報処理は明らかでない。そこで、このような課題を動物を訓練し、その行動動態を明らかにする。また計算論モデルによって、I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、II)そのアルゴリズムで学習されたとすると、どのような情報表現が獲得されるのか、を推定・予測し、III)大脳基底核と大脳皮質の神経活動記録を行い、それらの情報表現が従来の価値情報や方策などの基底関数になり得るのかどうかを検証する。
強化学習における状態空間や行動空間の学習は、人工知能の根幹問題ともいえる。特に線条体の神経細胞の情報表現はその情報処理過程を知る上で重要である。本研究では線条体の情報表現を統一する新しい仮説「線条体は、強化学習で必要となる価値関数や方策関数の基底表現であり、TD誤差とsalience 情報から学習する」を提案する。その上で、I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、 II)どのような情報表現が獲得されるのか、を推定・予測する。III)ニホンザルに多次元の状態空間から意思決定を行う課題を訓練し、大脳基底核と大脳皮質の神経活動記録を行い、情報表現が従来の価値情報や方策などの基底関数になり得るのかどうか検討した。どのようなネットワークモデルで学習できるのかについては、大脳皮質をリカレントネットワークとして、その出力を受け取る線条体から、ランダムな結合でフィードバックする生物学的に妥当な多重リカレントを想定し、ドーパミンによって強化される可塑性を仮定したシミュレーションによって適切なターゲットを選択できることを、色属性と形属性にそれぞれ報酬を連合した課題において示した。この結果は、国内学会において発表した。この2つを統合した場合にどのような情報表現が獲得されるのか、今後このネットワークアーキテクチャと3要素学習則によって検討を重ねていく。また、これまでに取得している線条体の神経活動データの再解析を行ったところ、線条体の神経表現が、現在のタスクだけでなく、過去のタスク要請に必要な情報表現を保持し続ける傾向があることが判明した。2つの課題を切り替えて行っていることから、将来の報酬最大化のためにあえて保持し続けることで、現在の課題だけでない表現を保持する機構が大脳基底核に存在することを示唆している。
令和2年度が最終年度であるため、記入しない。
All 2021 2020 2019
All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (1 results)
Brain pathology
Volume: - Issue: 5
10.1111/bpa.12952
frontiers in Neuroscience
Volume: 13 Pages: 1283-1283
10.3389/fnins.2019.01283
40022526579