Publicly Offered Research
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
不確実さには二種類ある。一つはサイコロのように状態空間は決まっているが、どの状態を取るかが確率的なもの。もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。本研究の目的は、無限定環境への適応を可能にする動的状態空間強化学習モデルを構築・検証することである。具体的には、2ターゲット探索課題と呼ばれる課題を実時間で遂行するモデル構築と、神経活動解析によるその検証、つまり、モデルの構成要素が脳のどこに対応するかの解明を行う。
不確実さには二種類ある。一つはサイコロのように状態空間が決まっているもの、もう一つは状態空間すら決まっていないものである。後者をはらむ環境を無限定環境と呼ぶ。強化学習は不確実な環境において報酬を最大化するよう1つ前の状態に基づき行動選択を学習する学習する。しかし、従来法では、状態は事前知識として与えられるため、無限定環境における高い学習能力は期待できない。本研究では、霊長類の生理実験に用いた2ターゲット探索課題を学習可能なモデルを提案する。課題では、被験者が固視点を固視していると4点が提示され、その中の隠れた1つのターゲットを見ると報酬が与えられる。ある期間では隣接2点ペアが交互に正解となるが、規定試行数連続正解すると、指示信号なしに別のペアが正解ターゲットになり、被験者は探索により新たなターゲットを探し出す。この課題では単純に1試行前を1つ前の状態としたのでは報酬は最大化されない。エージェントは事前知識なしに直近2試行を“1つ前の状態”と見做すように動的に状態を扱わなければならない。提案モデルは、経験飽和と行動選択の決定一意性の基準に基づいて、過去の試行の方向に状態空間を拡大・縮小する。前者は経験に伴うQ値の変化の大きさを、後者はQテーブルがどの程度、一意な行動決定に近づいたかを評価する。提案モデルは、課題構造の事前知識を与えた理想的なモデルと同等の高い正答率、適切な状態数、多くのペア切り替えを高い再現性で達成しただけでなく、モデル開発時には想定していなかった課題でも良好な性能を発揮した。提案モデルは、これら状態拡張の妥当性を定義する基準を含めることで、無限定環境に適応できる学習モデルの基礎となるものである。本成果については、Frontiers in Computational Neuroscience誌に掲載された。
令和3年度が最終年度であるため、記入しない。
All 2022 2021 2020
All Journal Article (5 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 4 results, Open Access: 3 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)
Frontiers in Computational Neuroscience
Volume: 15 Pages: 784592-784592
10.3389/fncom.2021.784592
bioRxiv
Volume: 10.1101/2021.09.30. Pages: 462676-462676
10.1101/2021.09.30.462676
Neuroscience Research
Volume: 170 Pages: 217-235
10.1016/j.neures.2020.11.002
Advances in experimental medicine and biology
Volume: 1293 Pages: 481-491
10.1007/978-981-15-8763-4_32
Volume: S0168 Pages: 1-11
10.1016/j.neures.2019.12.016