• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

A dynamic state-space reinforcement learning model that enables adaptation to indefinite environments

Publicly Offered Research

Project AreaHyper-adaptability for overcoming body-brain dysfunction: Integrated empirical and system theoretical approaches
Project/Area Number 20H05478
Research Category

Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)

Allocation TypeSingle-year Grants
Review Section Complex systems
Research InstitutionTohoku Medical and Pharmaceutical University

Principal Investigator

坂本 一寛  東北医科薬科大学, 医学部, 准教授 (80261569)

Project Period (FY) 2020-04-01 – 2022-03-31
Project Status Completed (Fiscal Year 2021)
Budget Amount *help
¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Fiscal Year 2021: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Keywords無限定環境 / 強化学習 / 動的状態空間 / 2ターゲット探索課題 / 経験飽和度 / 決定一意性 / ターゲット探索課題 / 状態空間
Outline of Research at the Start

不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。

Outline of Annual Research Achievements

不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう1つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると4点が提示され、その中の隠れた1つのターゲットを見ると報酬が与えられる。ある期間では隣接2点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に1試行前を1つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近2試行を“1つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。

Research Progress Status

令和3年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和3年度が最終年度であるため、記入しない。

Report

(2 results)
  • 2021 Annual Research Report
  • 2020 Annual Research Report
  • Research Products

    (10 results)

All 2022 2021 2020

All Journal Article (5 results) (of which Int'l Joint Research: 1 results,  Peer Reviewed: 4 results,  Open Access: 3 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Self-Determination of Previous States Based on Experience Saturation and Decision Uniqueness2022

    • Author(s)
      Katakura Tokio、Yoshida Mikihiro、Hisano Haruki、Mushiake Hajime、Sakamoto Kazuhiro
    • Journal Title

      Frontiers in Computational Neuroscience

      Volume: 15 Pages: 784592-784592

    • DOI

      10.3389/fncom.2021.784592

    • Related Report
      2021 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] Experience resetting in reinforcement learning facilitates exploration?exploitation transitions during a behavioral task for primates2021

    • Author(s)
      Sakamoto Kazuhiro、Okuzaki Hidetake、Sato Akinori、Mushiake Hajime
    • Journal Title

      bioRxiv

      Volume: 10.1101/2021.09.30. Pages: 462676-462676

    • DOI

      10.1101/2021.09.30.462676

    • Related Report
      2021 Annual Research Report
    • Open Access
  • [Journal Article] Meta-analysis of cognitive and behavioral tests in leptin- and leptin receptor-deficient mice2021

    • Author(s)
      Watanabe Tomofumi、Sakamoto Kazuhiro
    • Journal Title

      Neuroscience Research

      Volume: 170 Pages: 217-235

    • DOI

      10.1016/j.neures.2020.11.002

    • Related Report
      2021 Annual Research Report 2020 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Multimodal Functional Analysis Platform: 2. Development of Si Opto-Electro Multifunctional Neural Probe with Multiple Optical Waveguides and Embedded Optical Fiber for Optogenetics2021

    • Author(s)
      Tanaka Tetsu、Katayama Norihiro、Sakamoto Kazuhiro、Osanai Makoto、Mushiake Hajime
    • Journal Title

      Advances in experimental medicine and biology

      Volume: 1293 Pages: 481-491

    • DOI

      10.1007/978-981-15-8763-4_32

    • ISBN
      9789811587627, 9789811587634
    • Related Report
      2021 Annual Research Report
    • Peer Reviewed
  • [Journal Article] Differences in task-phase-dependent time-frequency patterns of local field potentials in the dorsal and ventral regions of the monkey lateral prefrontal cortex2020

    • Author(s)
      Sakamoto Kazuhiro、Kawaguchi Norihiko、Mushiake Hajime
    • Journal Title

      Neuroscience Research

      Volume: S0168 Pages: 1-11

    • DOI

      10.1016/j.neures.2019.12.016

    • Related Report
      2020 Annual Research Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 行動計画中の外側前頭前野局所場電位の変化2022

    • Author(s)
      坂本一寛
    • Organizer
      第99回日本生理学会大会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 動的強化学習における中庸2021

    • Author(s)
      坂本一寛
    • Organizer
      第31回日本神経回路学会大会
    • Related Report
      2021 Annual Research Report
  • [Presentation] 形操作課題中のサル外側前頭前野シータ振動の課題関連性の多元解析2021

    • Author(s)
      坂本一寛, 川口典彦, 虫明元
    • Organizer
      第44回 日本神経科学大会
    • Related Report
      2021 Annual Research Report
  • [Presentation] ターゲット探索課題を段階的に学習するニューラルネット強化学習モデル2020

    • Author(s)
      佐藤彰紀, 奥崎秀武, 虫明元, 坂本一寛
    • Organizer
      第三十回 日本神経回路学会全国大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] シータおよびガンマ振動はサルの外側前頭前野内のサブ領域の違いを特徴付ける2020

    • Author(s)
      坂本 一寛, 川口 典彦, 虫明 元
    • Organizer
      第四十三回 日本神経科学学会大会
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research

URL: 

Published: 2020-04-28   Modified: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi