研究領域 | 人工知能と脳科学の対照と融合 |
研究課題/領域番号 |
19H04988
|
研究種目 |
新学術領域研究(研究領域提案型)
|
配分区分 | 補助金 |
審査区分 |
複合領域
|
研究機関 | 玉川大学 |
研究代表者 |
鮫島 和行 玉川大学, 脳科学研究所, 教授 (30395131)
|
研究期間 (年度) |
2019-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
11,700千円 (直接経費: 9,000千円、間接経費: 2,700千円)
2020年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2019年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
|
キーワード | 強化学習 / 神経情報表現 / 電気生理 / 意思決定 / 線条体 |
研究開始時の研究の概要 |
強化学習における状態空間や行動空間の学習は、人工知能の根幹問題ともいえる。強化学習を実現する神経回路として大脳基底核が注目されているが、状態空間や行動空間が切り替わる課題における情報処理は明らかでない。そこで、このような課題を動物を訓練し、その行動動態を明らかにする。 また計算論モデルによって、 I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、 II)そのアルゴリズムで学習されたとすると、どのような情報表現が獲得されるのか、を推定・予測し、 III)大脳基底核と大脳皮質の神経活動記録を行い、それらの情報表現が従来の価値情報や方策などの基底関数になり得るのかどうかを検証する。
|
研究実績の概要 |
強化学習における状態空間や行動空間の学習は、人工知能の根幹問題ともいえる。特に線条体の神経細胞の情報表現はその情報処理過程を知る上で重要である。本研究では線条体の情報表現を統一する新しい仮説「線条体は、強化学習で必要となる価値関数や方策関数の基底表現であり、TD誤差とsalience 情報から学習する」を提案する。その上で、I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、 II)どのような情報表現が獲得されるのか、を推定・予測する。III)ニホンザルに多次元の状態空間から意思決定を行う課題を訓練し、大脳基底核と大脳皮質の神経活動記録を行い、情報表現が従来の価値情報や方策などの基底関数になり得るのかどうか検討した。 どのようなネットワークモデルで学習できるのかについては、大脳皮質をリカレントネットワークとして、その出力を受け取る線条体から、ランダムな結合でフィードバックする生物学的に妥当な多重リカレントを想定し、ドーパミンによって強化される可塑性を仮定したシミュレーションによって適切なターゲットを選択できることを、色属性と形属性にそれぞれ報酬を連合した課題において示した。この結果は、国内学会において発表した。この2つを統合した場合にどのような情報表現が獲得されるのか、今後このネットワークアーキテクチャと3要素学習則によって検討を重ねていく。 また、これまでに取得している線条体の神経活動データの再解析を行ったところ、線条体の神経表現が、現在のタスクだけでなく、過去のタスク要請に必要な情報表現を保持し続ける傾向があることが判明した。2つの課題を切り替えて行っていることから、将来の報酬最大化のためにあえて保持し続けることで、現在の課題だけでない表現を保持する機構が大脳基底核に存在することを示唆している。
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|