A dynamic state-space reinforcement learning model that enables adaptation to indefinite environments
Publicly Offered Research
Project Area | Hyper-adaptability for overcoming body-brain dysfunction: Integrated empirical and system theoretical approaches |
Project/Area Number |
20H05478
|
Research Category |
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
|
Allocation Type | Single-year Grants |
Review Section |
Complex systems
|
Research Institution | Tohoku Medical and Pharmaceutical University |
Principal Investigator |
坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Fiscal Year 2021: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | 無限定環境 / 強化学習 / 動的状態空間 / 2ターゲット探索課題 / 経験飽和度 / 決定一意性 / ターゲット探索課題 / 状態空間 |
Outline of Research at the Start |
不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。
|
Outline of Annual Research Achievements |
不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう1つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると4点が提示され、その中の隠れた1つのターゲットを見ると報酬が与えられる。ある期間では隣接2点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に1試行前を1つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近2試行を“1つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(10 results)