2009 Fiscal Year Annual Research Report

非合理な選択行動の特性から学習原理を導く

Research Project

Project/Area Number	21700174
Research Institution	Tamagawa University
Principal Investigator	酒井裕 Tamagawa University, 脳科学研究所, 准教授 (70323376)
Keywords	知能機械 / 神経科学 / 強化学習 / 動物行動 / 知識獲得
Research Abstract	動物はしばしば報酬最大化するような行動に至らずに,「マッチング則」と呼ばれる行動上の法則を満たすことが知られている.マッチング則とは,各行動を選択した回数の割合がその行動を通して得られた報酬量の割合に一致するという法則であり,これが成り立つ行動をマッチング行動と呼ぶ.マッチング行動は人を含めた様々な種で観測されており,マッチングを示すような共通の学習機構が脳に存在することを示唆している.マッチング行動に至るような学習アルゴリズムは多数提案されており,近年,シナプスの学習則として実現するための一般則も提案されている.しかし,そのような学習機構が存在するとしても,なぜ脳は報酬最大化ではなくマッチングを目指すのか,不明のままであった. 本研究では,マッチングと報酬最大化に関するこれまでの議論が,限定された行動の範囲で行われていることに気づき,報酬最大化行動がマッチング則を満たさないのは,適切な状態空間を設定していない場合に限られることを証明した.つまり適切な状態空間を設定すれば,マッチングを目指す学習戦略でも真の最適行動に至ることがわかる.動物にとっては状態空間を明示されておらず,適切に状態を定めるための情報源を探索することが必要である.その探索に失敗し,適切な情報源に至っていないとき,マッチング行動という非合理行動が顕れたのではないかと考えられる.マッチング戦略が実際に脳で採用されているのかどうかを調べるため,今年度は,不適切な情報源のもとでの意思決定の学習に関する理論的枠組を確立し,マッチング戦略を用いているかどうかを,行動データから判別する手法を開発した.