研究実績の概要 |
何が生じうるか確率空間すら規定できない環境を無限定環境と呼ぶ.無限定環境に適応するには,世界に積極的に働きかけ(プロアクティヴ・アウトリーチ),適応の枠組みそのものを自ら生成する必要がある.本研究では坂本のこれまでのモデルを発展させ,大脳皮質補足運動野の機能解明に用いられた順序動作課題を学習可能なモデルを構築した.課題ではまず,視覚誘導性課題を行った.ここでは, push, pull, turnのいずれかの動作を指示する信号に従い,ゴー信号を合図に動作を実行する.ある試行ブロックでは同じ指示信号が同一順序で提示され,エージェントが7試行連続で正解すると,記憶誘導性課題へと移行する.7試行連続で正解すると再び視覚誘導性課題に戻り,異なる順序動作が指示される.モデルでは,課題の異なる提示画面に対して異なるコンテキスト依存学習セットが生成される.各学習セットは知覚情報モジュールと行動結果履歴モジュールから構成される.知覚情報モジュールでは,現在のコンテキスト以前のコンテキスト(課題提示画面)の情報が保持される.もう一つのモジュールでは,行動と結果の履歴を状態生成の手がかりとした.状態空間/Qテーブルの拡張は,決定一意性および経験飽和度の2つの基準に基づき行われた.モデルは,速やかに課題を学習し,高い正答率,および順調は順序動作スイッチを示した.一方、生理学実験からは特定動作順序に選択的に活動する神経細胞活動,例えば, Pull-Turn-Push行動を行う試行の冒頭のみに活動する細胞などが観察されている。このような細胞の活動は,「Turnを実行し,引き続きPushを実行して報酬を得た」場合の動作PullのQ値としてモデルで説明できる.本モデルは,状態を自ら生成することで無限定環境に適応可能であるだけでなく,高次運動野の計算論的理解の道を開いた.
|