2022 Fiscal Year Annual Research Report
不確実な環境における制度と心の共進化:資源分配とリスク回避の理論・実証的検討
Project/Area Number |
22J10581
|
Allocation Type | Single-year Grants |
Research Institution | Hokkaido University |
Principal Investigator |
本間 祥吾 北海道大学, 文学院, 特別研究員(DC2)
|
Project Period (FY) |
2022-04-22 – 2024-03-31
|
Keywords | 強化学習 / 学習率 / 報酬予測誤差 / リスク選好 / 変動性 / 進化シミュレーション |
Outline of Annual Research Achievements |
本研究の目的は、不確実な環境における、資源の共有分配制度とそれを支える個人のリスク回避傾向の共進化を理論的に解明することである。本研究は、リスク回避あるいはリスク追求行動を生み出すメカニズムとして、強化学習と予期せぬ報酬・損失に対する感受性パラメータ(それぞれ正の学習率・負の学習率)に着目している。これまで実施した研究では、複数の異なるリスク状況下で適応的な意思決定を可能とする学習率を進化シミュレーションによって検討してきた。結果として、負の学習率が減少し、正の学習率が負の学習率より大きい状態が進化することが見出された。また、進化の結果、個体は置かれたリスク状況に応じて、適応的なリスク回避行動あるいはリスク追求行動を選択できるようになり、期待値の等しい課題ではプロスペクト理論的な行動傾向を示すことが見出された。しかし、これは限られた課題構造でしか検討されていなかった。そのため、本年度では、結果の頑健性を確認するため、一定の手順でランダムに課題を生成し、より広範囲な課題でシミュレーションを行った。その結果、これまでと同様の結果が得られた。これらの結果は、リスク選好を進化適応的な学習メカニズムの産物として理解できることを示唆している。 さらに、本年度では、リスクに加えて変動性(期待値の変化)も存在する環境における強化学習のシミュレーションを行った。リスク回避行動が適応的な状態とリスク追求行動が適応的な状態が確率的に入れ替わる環境変動を導入し、強化学習個体の学習率がどのように進化するかを検討した。その結果、複数のリスク状況下における学習率の進化と類似した進化パターンが見出された。これは、リスク状況に適応した学習メカニズムによって、変動性に対しても十分対応できる可能性を示唆している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
変動環境下におけるシミュレーションを実施し成果を得た一方で、当初想定していなかった新たな変動環境のシミュレーションを実施する必要が生じた。そのため、資源の共有分配を仮定したシミュレーションは来年度に実施する予定である。
|
Strategy for Future Research Activity |
より現実の自然環境に近い変動環境下における学習率の進化を新たに検討する。また、獲得した資源を分配する行動戦略を導入した際に、個体のリスクに対する反応がどのように変化するのかを検討する。
|