超適応としての高次脳機能:無限定環境へのプロアクティヴ・アウトリーチ原理の探究
Publicly Offered Research
Project Area | Hyper-adaptability for overcoming body-brain dysfunction: Integrated empirical and system theoretical approaches |
Project/Area Number |
22H04780
|
Research Category |
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
|
Allocation Type | Single-year Grants |
Review Section |
Complex systems
|
Research Institution | Tohoku Medical and Pharmaceutical University |
Principal Investigator |
坂本 一寛 東北医科薬科大学, 医学部, 准教授 (80261569)
|
Project Period (FY) |
2022-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Fiscal Year 2023: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2022: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | 動的状態空間 / 強化学習 / 高次脳機能 / 順序動作 / 積極的働きかけ / 学習モデル |
Outline of Research at the Start |
本研究は、環境への積極的働きかけ原理の解明を目的とする。具体的には、1)高次運動野/前頭前野関連課題を学習するモデルを構築し、順序行動発現の原理を解明する。2)課題難易度とモデルメタパラメータをどう制御すると意欲と課題成績の関係則を再現できるかを検討し、意欲の理論を構築する。これらにより、家電製品を適切な順序で操作できない、意欲がない等の高次脳機能障害の神経基盤の解明に貢献する。
|
Outline of Annual Research Achievements |
何が起きうるか確率空間すら規定できない環境を無限定環境と呼ぶ。本研究では、これまでの成果を発展させ無限定環境へのプロアクティヴ・アウトリーチ(積極的働きかけ)原理の解明を目的とする。具体的には、これまでの動的状態空間強化学習モデルを発展させ、高次運動野の学習モデルを構築することを目的とする。ここまで学習モデルは以前サルで行なった2ターゲット探索課題と呼ばれる課題を題材に構築してきた。本課題には一試行内に様々なイベントがあるが、高い正答率を得るには以前の試行の結果に基づく必要がある。すなわち、より現実に即した学習モデルを構築するには、二重の時間の流れ、つまり、試行間の行動と正誤の履歴に基づく振る舞いの学習と試行内の各イベントにおける振る舞いの学習をどう両立させるかを克服する必要があった。この問題を解決するために、エピソード内履歴構造というものを考案した。ここで言うエピソードとは,具体的には提示刺激で特徴付けられる試行内のイベントである。モデルでは、新しいイベントが出現すれば、それに対応して記憶セット、つまり、動的に拡大・縮小するQテーブルが割り当てられる。各エピソードでの経験が十分に飽和したにも拘らず行動が一意に決定できない場合、同一エピソード内での履歴を遡って新たな状態を生成する。報酬は最終エピソードでのみ与えられるが、それに先行するエピソードでの行動は、報酬予測が引き渡されることにより学習される。このような機構を新たに設けることにより、サルが学習したようにモデルは2ターゲット探索課題を学習できた。本結果は、オープンアクセス誌Frontiers In Computational Neuroscience誌(15, 784592)において発表した。更に、補足運動野の性質をよく捉える順序行動課題を学習可能なモデルについての予備的な結果も学会等において発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
高次運動野、特に補足運動野・前補足運動野の機能を再現するには、遅延反応課題だけでなく、丹治・島(1994)による順序動作課題も学習可能でなくてはならない。現在、このような学習可能な動的状態空間モデルを構築しつつある。モデルでは、これまで著者らが提案したモデルと同様に経験飽和度と決定一意性の基準に基づき、状態空間・Qテーブルを動的に拡張する。更にここでは、新たな状態生成に、同一エピソード内での行動履歴を用いるサブモジュールと、エピソードを時間的に遡り知覚手がかりの組み合わせを用いるサブモジュールを用い、これらが並列にQテーブルを動的に拡張することで、目的とする課題の学習ができるのではないかと考えた。すでに、予備的な結果は学会等において発表した。
|
Strategy for Future Research Activity |
課題を学習できることと、神経細胞活動を説明することとは同一ではない。丹治・島(1994)が明らかにした順序動作を符号化する神経細胞を強化学習の枠組みで説明するには、動的な状態をどのように生成するのか、そのための手がかりの使い方を精査する必要があるかもしれない。過去の文献、特に、個々の神経細胞の発火特性と精密に照らし合わせ、本学習モデルをブラシュアップする予定である。
|
Report
(1 results)
Research Products
(13 results)