研究領域 | 脳情報動態を規定する多領野連関と並列処理 |
研究課題/領域番号 |
20H05049
|
研究機関 | 東京大学 |
研究代表者 |
森田 賢治 東京大学, 大学院教育学研究科(教育学部), 准教授 (60446531)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
キーワード | 強化学習 / ドーパミン / 大脳皮質 / 大脳基底核 / 依存 |
研究実績の概要 |
大脳皮質-基底核神経回路における価値学習に関して、皮質においてどのような状態表現が成されるか、その結果としていかなることが生じうるか、数理モデルを用いて研究を進めた。かねてから人を含めた動物は目標指向行動と習慣的行動と呼ばれる、異なる様式の行動を取り得ること、それらに皮質-基底核系の異なる部分・回路が特に関わる可能性が示唆されてきた。習慣的行動については、報酬予測誤差がドーパミンによって表され、ドーパミン依存的な皮質線条体シナプスの可塑性によって価値の更新・学習が成されると考えられてきた。また最近、ある種の目標指向行動様の行動は、ある状態をそこから遷移していく状態への将来的な滞在時間の割引和で表すという状態表現(successor representationと呼ばれる)を用いると、習慣的行動について考えられてきたのと同様の、報酬予測誤差を表すドーパミンに依存する皮質-線条体シナプスの可塑性によって実現されうる可能性が提案された。また一方で、脳における状態表現においては、一般に、次元削減が行われている可能性もかねてから議論されてきた。そこで本研究においては、次元削減されたsuccessor representationとして、報酬の得られるゴール状態への将来的な滞在による状態表現を考えた。そのような状態表現であっても、ゴールにおいて得られる報酬が変化した場合に、ゴールまでの遷移を経験せずともその変化が行動に反映されうるという点で、ある種の目標指向行動様の行動は実現され得ると考えられる。しかし一方で、ゴールまで躊躇なく到達するという方策を長く経験する間に、その方策のもとでのそうした状態表現が強固になり、方策が変わっても更新されなくなると、方策が変わった後の価値関数をうまく近似できなくなることが考えられる。数理モデルを用いた研究により、それが依存に関わる可能性を提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予期していたこととは異なる部分もあるが、既に論文一報も受理され、概ね順調に進展していると考えられる。
|
今後の研究の推進方策 |
これまで進めてきた内容について、検証法の検討など、引き続き研究を進めていく。また、皮質細胞・回路の種類と、状態表現の対応などについて、数理モデルを用いた検討を進めていく計画である。
|