研究領域 | 身体-脳の機能不全を克服する潜在的適応力のシステム論的理解 |
研究課題/領域番号 |
20H05478
|
研究機関 | 東北医科薬科大学 |
研究代表者 |
坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
キーワード | 無限定環境 / 強化学習 / ターゲット探索課題 / 状態空間 |
研究実績の概要 |
不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。生命システムは、現存の機械より、はるかに高い無限定環境への適応能力を備えているように思われる。 強化学習は、正誤情報のみから環境への適応能力を獲得する理論的枠組みをもたらす。強化学習における大きな問題の一つに、探索-知識利用トレードオフ問題が挙げられる(Sutton and Barto, 1998)。つまり、時事刻々変化する環境において、これまでの経験を生かして行動するのか(知識利用)、それとも、新しい有効な行動を探索するのか(探索)という一見相反するストラテージーをどう使いわけるのか、という問題である。本研究では、この探索-知識利用トレードオフ問題を通じて、高い無限定環境への適応能力を持つ学習の枠組みを探究する。 本研究項目の具体的な目的は、我々が以前、霊長類の生理実験に用いたターゲット探索課題(Kawaguchi et al., 2015)を遂行する神経機構を解明することである。課題(1ターゲット探索課題)では、被験者は固視点を固視していると4点が提示され、その中の隠れた1つのターゲットを見ると報酬が与えられる。規定試行数連続正解すると被験者には知らされず、別の点が隠れたターゲットになる。その際、被験者は試行錯誤と正解不正解を通じて新たなターゲットを探し出す。つまり、見つけたターゲットを繰り返し見て正解を得る知識利用試行期間と新たなターゲットを探さねばならない探索試行期間が交互に訪れる。従って、本課題は、探索-知識利用トレードオフ問題を扱うのにふさわしい。 2020年度は下記の通り、脳の構造に即したモデリングおよび病態学モデルをにらんだ研究を展開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
2020年度は、1ターゲット探索課題を学習するニューラルネット強化学習モデルを試作した。ニューラルネット部分は入力層Iと出力層Oからなり、出力層の活動をもとにsoftmax関数が行動を決定する。入力層と出力層の間の結合荷重Eは、報酬予測誤差δに基づき変更するが、δを計算する上で必要な行動価値関数Qを入力Inと出力Outの組み合わせについて求めることにより、限定された結合荷重のみが変更され、結果、ターゲットが繰り返し変更されても短時間で新しいターゲットを発見することができる。しかしながら、価値関数を入力のみについて計算する状態価値関数Vとした場合は、変調されるEが限定されず、結果、課題は正しく学習されなかった。 上述の報酬予測誤差δは、黒質のドパミン細胞の活動により担われている。過食症などの依存症では、このドパミン細胞の活動、報酬予測誤差δの計算に変調をきたしている可能性がある。そこで2020年度は、脂肪細胞由来の摂食活動抑制ホルモン・レプチン欠損(ob/ob)およびレプチン受容体欠損(db/db)マウスの認知・行動課題を行った論文についてのメタ解析を行った。解析の結果、これら遺伝子変異マウスは、モリス水迷路課題等の記憶関連課題、及び、尾懸垂試験等のうつ病様行動の判定に使用される課題では、対照群と比べて有意なパフォーマンスの異常が見られたが、高架式十字迷路試験等の不安様行動の判定に使用される課題では有意な変化が認められなかった。依存は不安に関係し報酬予測誤差δ計算におけるバイアスDとしてモデル化できる。一方、近年、うつ病は、割引率の低下との関連が示唆されている。向精神薬には抗不安作用と抗うつ作用の両方を示すものも存在するが、本研究で扱った遺伝子変異マウスにおけるうつ様行動と不安様行動の乖離は、これらは密接に関連するものの異なる要因であることを示唆している。
|
今後の研究の推進方策 |
2020年度の1ターゲット探索課題を遂行できるモデルをベースに、2021年度は2ターゲット探索課題(4光点のうち2点が交互にターゲットとなる課題)を遂行するモデルを構築する。また、関連する生理実験についても成果を上げる。一方、コロナ禍で思うように進まなかった領域内交流・共同研究にも積極的に取り組む。
|