研究課題/領域番号 |
13J05595
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
社会システム工学・安全システム
|
研究機関 | 総合研究大学院大学 |
研究代表者 |
中村 光宏 総合研究大学院大学, 先導科学研究科, 特別研究員(PD)
|
研究期間 (年度) |
2013-04-26 – 2016-03-31
|
研究課題ステータス |
完了 (2015年度)
|
配分額 *注記 |
2,520千円 (直接経費: 2,100千円、間接経費: 420千円)
2015年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2014年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2013年度: 700千円 (直接経費: 700千円)
|
キーワード | 協力の進化 / 互恵性 / 心の理論 / 評判 / 間接互恵性 / 繰り返しゲーム / 進化ゲーム |
研究実績の概要 |
当該年度は(研究A)相手の行動が隠れ状態に依存するとき互恵関係を築けるかの理論解析(研究B)間接互恵性における監視者とその評判情報利用者との共進化ダイナミクスの理論解析(研究C)実験データを用いた強化学習方略の環境依存性の統計解析を行った. (研究A)繰り返しゲームの代表的な戦略に,過去の行動に応じて次の行動を決定する reactive strategy (RS) がある。RSは,相手の行動が隠れ状態に依存する場合を考慮しないという問題を持つ。これは信念マルコフ決定過程(信念MDP)を用いて定式化できるが,素朴に解くのは難しい.そこで信念MDPを簡略化して解くモデルを考案しその解析を行った.相手の状態を知っている場合と比較して,簡略化したモデルでもほぼ最適な戦略を採ること,またそれらの最適戦略は協力率の点では異なっていることを明らかにした.本研究の成果については現在国際学会誌に投稿中である. (研究B)昨年度に引き続き,間接互恵性においてコストのかかる監視を行う監視者と,監視者から対価を支払うことによって得られた情報を用いて行動する評判情報利用者との共生の数理モデルについて原稿執筆を行った.現在国際学会誌に投稿中である. (研究C)動物は環境に応じて認知を変化させ,より繁殖価に貢献する行動選択を行う.行動の価値は学習過程を経て計算されるはずだが,その環境依存性は明らかにされてこなかった.学習過程の代表的なモデルにRescorla-Wagner(RW)型とRoth-Erev(RE)型がある.本研究では,ヒヨコの採餌実験データから学習過程をベイズ推定し,環境条件によってどちらのモデルに近いかを調べた.環境が厳しい(期待餌量が少ない)ときRW型に近く,易しい(期待餌量が多い)ときRE型に近い傾向が観察された.本研究の成果については国内・国際学会において発表を行った.
|
現在までの達成度 (段落) |
27年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
27年度が最終年度であるため、記入しない。
|