研究領域 | 身体-脳の機能不全を克服する潜在的適応力のシステム論的理解 |
研究課題/領域番号 |
20H05478
|
研究種目 |
新学術領域研究(研究領域提案型)
|
配分区分 | 補助金 |
審査区分 |
複合領域
|
研究機関 | 東北医科薬科大学 |
研究代表者 |
坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)
|
研究期間 (年度) |
2020-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
2021年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2020年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | 無限定環境 / 強化学習 / 動的状態空間 / 2ターゲット探索課題 / 経験飽和度 / 決定一意性 / ターゲット探索課題 / 状態空間 |
研究開始時の研究の概要 |
不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。
|
研究実績の概要 |
不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう1つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると4点が提示され、その中の隠れた1つのターゲットを見ると報酬が与えられる。ある期間では隣接2点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に1試行前を1つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近2試行を“1つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|