Project/Area Number |
20019012
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Biological Sciences
|
Research Institution | The University of Tokyo |
Principal Investigator |
増田 直紀 The University of Tokyo, 大学院・情報理工学系研究科, 准教授 (40415295)
|
Project Period (FY) |
2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥1,400,000 (Direct Cost: ¥1,400,000)
Fiscal Year 2008: ¥1,400,000 (Direct Cost: ¥1,400,000)
|
Keywords | 脳 / 強化学習 / ゲーム理論 / 囚人のジレンマ / 協力行動 |
Research Abstract |
本研究の目標は、高等動物、特に人間の協力的な行動の、脳の神経回路構造に基づく数理モデルを作ることである。人は経験に基づいて行動様式を学習しているという仮説を採用する。さらに、強化学習モデルの一種であるtemporal-difference learning(TD学習)を数理モデルの土台として用いる。TD学習の脳内での存在は、実験的に支持されている。協力行動を調べるためには繰り返し囚人のジレンマを用いた。 TD学習を行う個体どうしの相互作用を理論的に研究することは、一般的に難しい。各個体は、定常ではない環境のもとで学習をすることになるからである。TD学習や類似の強化学習ルールは、定常ではない環境でしばしば効率的に振る舞わないのである。そこで、相手個体は確率的な機械である、という状況設定で、TD学習の振舞いを明らかにすることが有用であると思われる。 TD学習を行う個体が比較的簡単な確率的戦略に対してどのように振る舞うのか、を解析的計算と数値計算によって調べた。内部状態が2状態だけである学習個体ですら、(1)しっぺ返し(tit-for-tat)を行う相手には協力する、(2)無条件に協力する相手は裏切る、(3)無条件に裏切る相手は裏切る、という、3種の主要な戦略のそれぞれに対して最適な振舞いを学習できることがわかった。2状態TDプレーヤーは、tit-fortwo-tatsというしっぺ返しプレーヤーの一種にもやはり最適に振る舞うが、win-stay-lose-shiftという戦略に対しては最適に振る舞わない。また、2状態TDプレーヤーどうしの対戦からは、相互協力が導かれなかった。 4状態を持つTDプレーヤーは、win-stay-lose-shiftや他のいくつかの戦略に対しても最適な振る舞いを学習することがわかった。また、学習速度が十分に遅いという制限のもとでは、4状態TDプレーヤーどうしは相互協力を達成できることがわかった。 研究成果は、国際論文誌に投稿され、現在審理中である。
|
Report
(1 results)
Research Products
(7 results)