Budget Amount *help |
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 2009: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2008: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
人や動物は,実験室で人工的に設定された確率ルールで得られる報酬が決まるような環境では,しばしば,得られる報酬を最大化することに失敗し,非合理な行動を示す.このとき,しばしばマッチング則と呼ばれる行動上の法則を満たすことが知られている.本研究課題では,これまで,このようなマッチング行動に至る学習アルゴリズムに共通の原理を明らかにし,その学習戦略がもっと広い枠組の中では報酬最大化という合理性をもつことを証明した.さらにこのマッチング学習戦略を実現するようなシナプス可塑性の特性に必要な条件を明らかにしてきた.今年度は,マッチング学習戦略を実現するシナプス変化則の1例として,「強化メタ学習則」という学習則を提案し,その学習則がもつ様々な能力について検証した. Bi & Poo(1998)は,可塑性を起こす前のシナプス強度によってその後に起こる可塑性の程度が変わり,しかもその依存性がシナプス増強と抑圧で非対称となり,ある強度付近以外では,増強と抑圧が極めて不均衡であることを示している.これは,予め決まっている学習則の特性によって,ある強度に強制的に集まってくるような力を常に受けている,と解釈できる.ニューロンが入力に対する選択性を獲得するためには,同じような入力を受けているシナプスの中から特定のシナプスだけ選ばれて,その強度が強くなり,他のシナプスの強度が弱くなる必要があり,小さな差異を強調して広げていく仕組みが必要である.予め大きな力を受けている学習則では,このようなことは不可能である. 本研究では提案した「強化メタ学習則」がこの問題を解決すると共に,ニューロン活動と行動上の実報酬との時間遅延をどの様にシナプス学習に反映させるか,という遅延報酬問題も解決することを示した.
|