無限定環境への適応を可能にする動的状態空間強化学習モデル

公募研究

研究領域	身体－脳の機能不全を克服する潜在的適応力のシステム論的理解
研究課題/領域番号	20H05478
研究種目	新学術領域研究(研究領域提案型)
配分区分	補助金
審査区分	複合領域
研究機関	東北医科薬科大学
研究代表者	坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)
研究期間 (年度)	2020-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円) 2021年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2020年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	無限定環境 / 強化学習 / 動的状態空間 / ２ターゲット探索課題 / 経験飽和度 / 決定一意性 / ターゲット探索課題 / 状態空間
研究開始時の研究の概要	不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。
研究実績の概要	不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう１つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると４点が提示され、その中の隠れた１つのターゲットを見ると報酬が与えられる。ある期間では隣接２点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に１試行前を１つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近２試行を“１つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。
現在までの達成度 (段落)	令和3年度が最終年度であるため、記入しない。
今後の研究の推進方策	令和3年度が最終年度であるため、記入しない。

報告書

(2件)

2021 実績報告書
2020 実績報告書

研究成果
(10件)

すべて 2022 2021 2020

すべて雑誌論文 (5件) (うち国際共著 1件、査読あり 4件、オープンアクセス 3件) 学会発表 (5件) (うち国際学会 1件)

[雑誌論文] Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Self-Determination of Previous States Based on Experience Saturation and Decision Uniqueness2022
- 著者名/発表者名
  Katakura Tokio、Yoshida Mikihiro、Hisano Haruki、Mushiake Hajime、Sakamoto Kazuhiro
- 雑誌名
  
  Frontiers in Computational Neuroscience
  
  巻: 15 ページ: 784592-784592
- DOI
  10.3389/fncom.2021.784592
- 関連する報告書
  2021 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] Experience resetting in reinforcement learning facilitates exploration?exploitation transitions during a behavioral task for primates2021
- 著者名/発表者名
  Sakamoto Kazuhiro、Okuzaki Hidetake、Sato Akinori、Mushiake Hajime
- 雑誌名
  
  bioRxiv
  
  巻: 10.1101/2021.09.30. ページ: 462676-462676
- DOI
  10.1101/2021.09.30.462676
- 関連する報告書
  2021 実績報告書
- オープンアクセス
[雑誌論文] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021
- 著者名/発表者名
  Watanabe Tomofumi、Sakamoto Kazuhiro
- 雑誌名
  
  Neuroscience Research
  
  巻: 170 ページ: 217-235
- DOI
  10.1016/j.neures.2020.11.002
- 関連する報告書
  2021 実績報告書 2020 実績報告書
- 査読あり
[雑誌論文] Multimodal Functional Analysis Platform: 2. Development of Si Opto-Electro Multifunctional Neural Probe with Multiple Optical Waveguides and Embedded Optical Fiber for Optogenetics2021
- 著者名/発表者名
  Tanaka Tetsu、Katayama Norihiro、Sakamoto Kazuhiro、Osanai Makoto、Mushiake Hajime
- 雑誌名
  
  Advances in experimental medicine and biology
  
  巻: 1293 ページ: 481-491
- DOI
  10.1007/978-981-15-8763-4_32
- ISBN
  9789811587627, 9789811587634
- 関連する報告書
  2021 実績報告書
- 査読あり
[雑誌論文] Differences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020
- 著者名/発表者名
  Sakamoto Kazuhiro、Kawaguchi Norihiko、Mushiake Hajime
- 雑誌名
  
  Neuroscience Research
  
  巻: S0168 ページ: 1-11
- DOI
  10.1016/j.neures.2019.12.016
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス / 国際共著
[学会発表] 行動計画中の外側前頭前野局所場電位の変化2022
- 著者名/発表者名
  坂本一寛
- 学会等名
  第99回日本生理学会大会
- 関連する報告書
  2021 実績報告書
[学会発表] 動的強化学習における中庸2021
- 著者名/発表者名
  坂本一寛
- 学会等名
  第31回日本神経回路学会大会
- 関連する報告書
  2021 実績報告書
[学会発表] 形操作課題中のサル外側前頭前野シータ振動の課題関連性の多元解析2021
- 著者名/発表者名
  坂本一寛, 川口典彦, 虫明元
- 学会等名
  第44回日本神経科学大会
- 関連する報告書
  2021 実績報告書
[学会発表] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020
- 著者名/発表者名
  佐藤彰紀, 奥崎秀武, 虫明元, 坂本一寛
- 学会等名
  第三十回　日本神経回路学会全国大会
- 関連する報告書
  2020 実績報告書
[学会発表] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020
- 著者名/発表者名
  坂本一寛, 川口典彦, 虫明元
- 学会等名
  第四十三回　日本神経科学学会大会
- 関連する報告書
  2020 実績報告書
- 国際学会

無限定環境への適応を可能にする動的状態空間強化学習モデル

研究代表者

坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)

5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)

報告書

研究成果

[雑誌論文] Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Self-Determination of Previous States Based on Experience Saturation and Decision Uniqueness2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Experience resetting in reinforcement learning facilitates exploration?exploitation transitions during a behavioral task for primates2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] Multimodal Functional Analysis Platform: 2. Development of Si Opto-Electro Multifunctional Neural Probe with Multiple Optical Waveguides and Embedded Optical Fiber for Optogenetics2021

著者名/発表者名

雑誌名

DOI

ISBN

関連する報告書

[雑誌論文] Differences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 行動計画中の外側前頭前野局所場電位の変化2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 動的強化学習における中庸2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 形操作課題中のサル外側前頭前野シータ振動の課題関連性の多元解析2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020

著者名/発表者名

学会等名

関連する報告書

坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)