Project/Area Number |
22KJ0056
|
Project/Area Number (Other) |
22J10581 (2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2022) |
Section | 国内 |
Review Section |
Basic Section 10010:Social psychology-related
|
Research Institution | Hokkaido University |
Principal Investigator |
本間 祥吾 北海道大学, 文学院, 特別研究員(DC2)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥1,700,000 (Direct Cost: ¥1,700,000)
Fiscal Year 2023: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 強化学習 / 学習率 / 報酬予測誤差 / 進化シミュレーション / リスク選好 / 不確実性下の意思決定 / 資源分配 / 向社会行動 / 変動性 |
Outline of Research at the Start |
資源分配は人間社会に広く見られる制度である。人類学では、資源分配は、個人が食物等の資源を運悪く獲得できなかった場合にリスクを低減する機能を果たしてきたことが議論されてきた。近年、分配行動はリスク回避という心の性質と密接に関わることが明らかとなってきた。本研究は、個人のリスク回避を生み出すメカニズムを強化学習でモデル化し、人類の進化環境で見られたような変動環境において、資源の分配とそれを支える個人のリスク回避傾向を生み出す学習システムが共進化する条件を理論と実証から明らかにする。
|
Outline of Annual Research Achievements |
これまでの研究では、リスク回避行動の背後にあるメカニズムとして強化学習に着目し、不確実な環境における適応的な強化学習の進化について検討してきた。本研究では、強化学習に従う個体が多様なリスク環境において進化するプロセスをシミュレーションした。結果、進化した強化学習個体は、選択肢のリスクの大きさに関わらず、状況に応じてより大きな報酬の得られる選択肢を選択できるようになった。さらに、進化した個体は現実のリスク下の意思決定で観察される、プロスペクト理論から予測されるような行動パターンを示した。本研究は、リスク下の意思決定が学習アルゴリズムの進化という観点から理解できる可能性を示しており、学習アルゴリズムの進化というアプローチの有用性を明らかにした。 本年度はシミュレーションの成果をまとめて、国際誌へと投稿した。さらに、本年度は過去の実験データを再分析し、これまでの分析から得られていた、リスク回避行動と他者と資源を分かち合う傾向、強化学習における報酬に対する感受性(学習率)の間に相互に関連が見られるという知見をより強固にした。新たな分析では、より正確な学習率の推定を行うため、個人ごとの推定ではなく集団レベルの情報を加えたモデル(階層モデル)を仮定し、同様の知見が再現されるかを検討した。結果、3つの変数間の相関が再現された。この知見は、探索的な結果ではあるが、これまで知られていたリスク下の意思決定と資源分配の密接な関係に、強化学習という報酬の計算メカニズムが関与している可能性を示唆する重要な知見である。 以上、研究期間全体を通じて、強化学習に対する進化的アプローチの適用とリスク下の行動に関する洞察についての成果を上げ、強化学習と資源分配の実証的な関連についてより深い理解を得ることができた。
|