2020 年度実績報告書

無限定環境への適応を可能にする動的状態空間強化学習モデル

公募研究

研究領域	身体－脳の機能不全を克服する潜在的適応力のシステム論的理解
研究課題/領域番号	20H05478
研究機関	東北医科薬科大学
研究代表者	坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)
研究期間 (年度)	2020-04-01 – 2022-03-31
キーワード	無限定環境 / 強化学習 / ターゲット探索課題 / 状態空間
研究実績の概要	不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。生命システムは、現存の機械より、はるかに高い無限定環境への適応能力を備えているように思われる。強化学習は、正誤情報のみから環境への適応能力を獲得する理論的枠組みをもたらす。強化学習における大きな問題の一つに、探索－知識利用トレードオフ問題が挙げられる(Sutton and Barto, 1998)。つまり、時事刻々変化する環境において、これまでの経験を生かして行動するのか（知識利用）、それとも、新しい有効な行動を探索するのか（探索）という一見相反するストラテージーをどう使いわけるのか、という問題である。本研究では、この探索－知識利用トレードオフ問題を通じて、高い無限定環境への適応能力を持つ学習の枠組みを探究する。本研究項目の具体的な目的は、我々が以前、霊長類の生理実験に用いたターゲット探索課題(Kawaguchi et al., 2015)を遂行する神経機構を解明することである。課題（１ターゲット探索課題）では、被験者は固視点を固視していると４点が提示され、その中の隠れた１つのターゲットを見ると報酬が与えられる。規定試行数連続正解すると被験者には知らされず、別の点が隠れたターゲットになる。その際、被験者は試行錯誤と正解不正解を通じて新たなターゲットを探し出す。つまり、見つけたターゲットを繰り返し見て正解を得る知識利用試行期間と新たなターゲットを探さねばならない探索試行期間が交互に訪れる。従って、本課題は、探索－知識利用トレードオフ問題を扱うのにふさわしい。 2020年度は下記の通り、脳の構造に即したモデリングおよび病態学モデルをにらんだ研究を展開した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由 2020年度は、１ターゲット探索課題を学習するニューラルネット強化学習モデルを試作した。ニューラルネット部分は入力層Iと出力層Oからなり、出力層の活動をもとにsoftmax関数が行動を決定する。入力層と出力層の間の結合荷重Eは、報酬予測誤差δに基づき変更するが、δを計算する上で必要な行動価値関数Qを入力Inと出力Outの組み合わせについて求めることにより、限定された結合荷重のみが変更され、結果、ターゲットが繰り返し変更されても短時間で新しいターゲットを発見することができる。しかしながら、価値関数を入力のみについて計算する状態価値関数Vとした場合は、変調されるEが限定されず、結果、課題は正しく学習されなかった。上述の報酬予測誤差δは、黒質のドパミン細胞の活動により担われている。過食症などの依存症では、このドパミン細胞の活動、報酬予測誤差δの計算に変調をきたしている可能性がある。そこで2020年度は、脂肪細胞由来の摂食活動抑制ホルモン・レプチン欠損(ob/ob)およびレプチン受容体欠損(db/db)マウスの認知・行動課題を行った論文についてのメタ解析を行った。解析の結果、これら遺伝子変異マウスは、モリス水迷路課題等の記憶関連課題、及び、尾懸垂試験等のうつ病様行動の判定に使用される課題では、対照群と比べて有意なパフォーマンスの異常が見られたが、高架式十字迷路試験等の不安様行動の判定に使用される課題では有意な変化が認められなかった。依存は不安に関係し報酬予測誤差δ計算におけるバイアスDとしてモデル化できる。一方、近年、うつ病は、割引率の低下との関連が示唆されている。向精神薬には抗不安作用と抗うつ作用の両方を示すものも存在するが、本研究で扱った遺伝子変異マウスにおけるうつ様行動と不安様行動の乖離は、これらは密接に関連するものの異なる要因であることを示唆している。
今後の研究の推進方策	2020年度の１ターゲット探索課題を遂行できるモデルをベースに、2021年度は２ターゲット探索課題（４光点のうち２点が交互にターゲットとなる課題）を遂行するモデルを構築する。また、関連する生理実験についても成果を上げる。一方、コロナ禍で思うように進まなかった領域内交流・共同研究にも積極的に取り組む。

研究成果
(4件)

すべて 2021 2020

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021
- 著者名/発表者名
  Watanabe Tomofumi、Sakamoto Kazuhiro
- 雑誌名
  
  Neuroscience Research
  
  巻: 170 ページ: 217～235
- DOI
  10.1016/j.neures.2020.11.002
- 査読あり
[雑誌論文] ifferences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020
- 著者名/発表者名
  [3]K. Sakamoto, N. Kawaguchi, H. Mushiake
- 雑誌名
  
  Neuroscience Research
  
  巻: 156 ページ: 41-49
- DOI
  10.1016/j.neures.2019.12.016
- 査読あり
[学会発表] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020
- 著者名/発表者名
  佐藤彰紀, 奥崎秀武, 虫明元, 坂本一寛
- 学会等名
  第三十回　日本神経回路学会全国大会
[学会発表] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020
- 著者名/発表者名
  坂本一寛, 川口典彦, 虫明元
- 学会等名
  第四十三回　日本神経科学学会大会
- 国際学会

2020 年度 実績報告書

無限定環境への適応を可能にする動的状態空間強化学習モデル

研究代表者

坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021

著者名/発表者名

雑誌名

DOI

[雑誌論文] ifferences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020

著者名/発表者名

雑誌名

DOI

[学会発表] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020

著者名/発表者名

学会等名

[学会発表] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020

著者名/発表者名

学会等名

2020 年度実績報告書

坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)