研究領域 | 身体-脳の機能不全を克服する潜在的適応力のシステム論的理解 |
研究課題/領域番号 |
22H04780
|
研究機関 | 東北医科薬科大学 |
研究代表者 |
坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)
|
研究期間 (年度) |
2022-04-01 – 2024-03-31
|
キーワード | 高次脳機能 / 強化学習 / 動的状態空間 |
研究実績の概要 |
何が起きうるか確率空間すら規定できない環境を無限定環境と呼ぶ。本研究では、これまでの成果を発展させ無限定環境へのプロアクティヴ・アウトリーチ(積極的働きかけ)原理の解明を目的とする。具体的には、これまでの動的状態空間強化学習モデルを発展させ、高次運動野の学習モデルを構築することを目的とする。ここまで学習モデルは以前サルで行なった2ターゲット探索課題と呼ばれる課題を題材に構築してきた。本課題には一試行内に様々なイベントがあるが、高い正答率を得るには以前の試行の結果に基づく必要がある。すなわち、より現実に即した学習モデルを構築するには、二重の時間の流れ、つまり、試行間の行動と正誤の履歴に基づく振る舞いの学習と試行内の各イベントにおける振る舞いの学習をどう両立させるかを克服する必要があった。この問題を解決するために、エピソード内履歴構造というものを考案した。ここで言うエピソードとは,具体的には提示刺激で特徴付けられる試行内のイベントである。モデルでは、新しいイベントが出現すれば、それに対応して記憶セット、つまり、動的に拡大・縮小するQテーブルが割り当てられる。各エピソードでの経験が十分に飽和したにも拘らず行動が一意に決定できない場合、同一エピソード内での履歴を遡って新たな状態を生成する。報酬は最終エピソードでのみ与えられるが、それに先行するエピソードでの行動は、報酬予測が引き渡されることにより学習される。このような機構を新たに設けることにより、サルが学習したようにモデルは2ターゲット探索課題を学習できた。本結果は、オープンアクセス誌Frontiers In Computational Neuroscience誌(15, 784592)において発表した。更に、補足運動野の性質をよく捉える順序行動課題を学習可能なモデルについての予備的な結果も学会等において発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
高次運動野、特に補足運動野・前補足運動野の機能を再現するには、遅延反応課題だけでなく、丹治・島(1994)による順序動作課題も学習可能でなくてはならない。現在、このような学習可能な動的状態空間モデルを構築しつつある。モデルでは、これまで著者らが提案したモデルと同様に経験飽和度と決定一意性の基準に基づき、状態空間・Qテーブルを動的に拡張する。更にここでは、新たな状態生成に、同一エピソード内での行動履歴を用いるサブモジュールと、エピソードを時間的に遡り知覚手がかりの組み合わせを用いるサブモジュールを用い、これらが並列にQテーブルを動的に拡張することで、目的とする課題の学習ができるのではないかと考えた。すでに、予備的な結果は学会等において発表した。
|
今後の研究の推進方策 |
課題を学習できることと、神経細胞活動を説明することとは同一ではない。丹治・島(1994)が明らかにした順序動作を符号化する神経細胞を強化学習の枠組みで説明するには、動的な状態をどのように生成するのか、そのための手がかりの使い方を精査する必要があるかもしれない。過去の文献、特に、個々の神経細胞の発火特性と精密に照らし合わせ、本学習モデルをブラシュアップする予定である。
|