A dynamic state-space reinforcement learning model that enables adaptation to indefinite environments

Publicly Offered Research

Project Area	Hyper-adaptability for overcoming body-brain dysfunction: Integrated empirical and system theoretical approaches
Project/Area Number	20H05478
Research Category	Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
Allocation Type	Single-year Grants
Review Section	Complex systems
Research Institution	Tohoku Medical and Pharmaceutical University
Principal Investigator	坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)
Project Period (FY)	2020-04-01 – 2022-03-31
Project Status	Completed (Fiscal Year 2021)
Budget Amount *help	¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000) Fiscal Year 2021: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000) Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Keywords	無限定環境 / 強化学習 / 動的状態空間 / ２ターゲット探索課題 / 経験飽和度 / 決定一意性 / ターゲット探索課題 / 状態空間
Outline of Research at the Start	不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。
Outline of Annual Research Achievements	不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう１つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると４点が提示され、その中の隠れた１つのターゲットを見ると報酬が与えられる。ある期間では隣接２点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に１試行前を１つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近２試行を“１つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。
Research Progress Status	令和3年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和3年度が最終年度であるため、記入しない。

Report

(2 results)

2021 Annual Research Report
2020 Annual Research Report

Research Products
(10 results)

All 2022 2021 2020

All Journal Article (5 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 4 results, Open Access: 3 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Self-Determination of Previous States Based on Experience Saturation and Decision Uniqueness2022
- Author(s)
  Katakura Tokio、Yoshida Mikihiro、Hisano Haruki、Mushiake Hajime、Sakamoto Kazuhiro
- Journal Title
  
  Frontiers in Computational Neuroscience
  
  Volume: 15 Pages: 784592-784592
- DOI
  10.3389/fncom.2021.784592
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Experience resetting in reinforcement learning facilitates exploration?exploitation transitions during a behavioral task for primates2021
- Author(s)
  Sakamoto Kazuhiro、Okuzaki Hidetake、Sato Akinori、Mushiake Hajime
- Journal Title
  
  bioRxiv
  
  Volume: 10.1101/2021.09.30. Pages: 462676-462676
- DOI
  10.1101/2021.09.30.462676
- Related Report
  2021 Annual Research Report
- Open Access
[Journal Article] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021
- Author(s)
  Watanabe Tomofumi、Sakamoto Kazuhiro
- Journal Title
  
  Neuroscience Research
  
  Volume: 170 Pages: 217-235
- DOI
  10.1016/j.neures.2020.11.002
- Related Report
  2021 Annual Research Report 2020 Annual Research Report
- Peer Reviewed
[Journal Article] Multimodal Functional Analysis Platform: 2. Development of Si Opto-Electro Multifunctional Neural Probe with Multiple Optical Waveguides and Embedded Optical Fiber for Optogenetics2021
- Author(s)
  Tanaka Tetsu、Katayama Norihiro、Sakamoto Kazuhiro、Osanai Makoto、Mushiake Hajime
- Journal Title
  
  Advances in experimental medicine and biology
  
  Volume: 1293 Pages: 481-491
- DOI
  10.1007/978-981-15-8763-4_32
- ISBN
  9789811587627, 9789811587634
- Related Report
  2021 Annual Research Report
- Peer Reviewed
[Journal Article] Differences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020
- Author(s)
  Sakamoto Kazuhiro、Kawaguchi Norihiko、Mushiake Hajime
- Journal Title
  
  Neuroscience Research
  
  Volume: S0168 Pages: 1-11
- DOI
  10.1016/j.neures.2019.12.016
- Related Report
  2020 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Presentation] 行動計画中の外側前頭前野局所場電位の変化2022
- Author(s)
  坂本一寛
- Organizer
  第99回日本生理学会大会
- Related Report
  2021 Annual Research Report
[Presentation] 動的強化学習における中庸2021
- Author(s)
  坂本一寛
- Organizer
  第31回日本神経回路学会大会
- Related Report
  2021 Annual Research Report
[Presentation] 形操作課題中のサル外側前頭前野シータ振動の課題関連性の多元解析2021
- Author(s)
  坂本一寛, 川口典彦, 虫明元
- Organizer
  第44回日本神経科学大会
- Related Report
  2021 Annual Research Report
[Presentation] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020
- Author(s)
  佐藤彰紀, 奥崎秀武, 虫明元, 坂本一寛
- Organizer
  第三十回　日本神経回路学会全国大会
- Related Report
  2020 Annual Research Report
[Presentation] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020
- Author(s)
  坂本一寛, 川口典彦, 虫明元
- Organizer
  第四十三回　日本神経科学学会大会
- Related Report
  2020 Annual Research Report
- Int'l Joint Research

A dynamic state-space reinforcement learning model that enables adaptation to indefinite environments

Principal Investigator

坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)

¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)

Report

Research Products

[Journal Article] Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Self-Determination of Previous States Based on Experience Saturation and Decision Uniqueness2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Experience resetting in reinforcement learning facilitates exploration?exploitation transitions during a behavioral task for primates2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Multimodal Functional Analysis Platform: 2. Development of Si Opto-Electro Multifunctional Neural Probe with Multiple Optical Waveguides and Embedded Optical Fiber for Optogenetics2021

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Differences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020

Author(s)

Journal Title

DOI

Related Report

[Presentation] 行動計画中の外側前頭前野局所場電位の変化2022

Author(s)

Organizer

Related Report

[Presentation] 動的強化学習における中庸2021

Author(s)

Organizer

Related Report

[Presentation] 形操作課題中のサル外側前頭前野シータ振動の課題関連性の多元解析2021

Author(s)

Organizer

Related Report

[Presentation] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020

Author(s)

Organizer

Related Report

[Presentation] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020

Author(s)

Organizer

Related Report

坂本一寛東北医科薬科大学, 医学部, 准教授 (80261569)