2021 Fiscal Year Research-status Report
Project/Area Number |
21K13667
|
Research Institution | The University of Tokyo |
Principal Investigator |
小倉 有紀子 東京大学, 大学院情報理工学系研究科, 特任研究員 (00794728)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | producer-scrounger game / interdependency / social learning |
Outline of Annual Research Achievements |
我々が現代社会で生活する上で、自分の経験だけでなく社会的な情報を利用することは欠かせない要素となっているが、社会情報さえ利用すれば利益がもたらされるとは限らない。社会情報利用によって個人や集団が利益を得るには、 「時間変化に応じて、個人経験利用戦略と社会情報利用戦略とを動的に切り替えていく」 というメタ戦略を用いる必要があると考えられる。しかしながら現実の人間は、必ずしも最適なメタ戦略を使えていない可能性がある。これは人間の個人差によるものなのか、それとも環境構造の側の要因が大きいのかを検討するのが本研究の目的である。 2021年度は予備的検討として、相互依存的なゲーム構造の下で強化学習エージェントが繰り返しゲームをプレイした場合に、集団がどのような挙動を示すかをシミュレーションした。マルチエージェントが強化学習により、個人経験利用と社会情報利用の状態行動価値(Q値)をアップデートしていくモデルを検討した。更新則として、一般的にヒトや動物で用いられていると考えられる(1)Rescorla-Wagner則 と、より直近の意思決定に対する重み付けが大きい(2)Roth-Erev則の2種類を検討した。結果、Rescorla-Wagner則の場合は全エージェントの戦術選択確率が0.5前後付近に留まるのに対し、Roth-Erev則の場合は個人経験利用者と社会情報利用者への2極分化が生じ、パラメータ設定次第でNash均衡に至ることが分かった。つまり、個体が用いる価値更新則が異なると、集団の挙動が大きく異なりうるといえる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2021年度中に被験者実験を行って、現実のヒトが相互依存場面でどのような学習則を用いるか、また学習則を時間経過とともにスイッチさせるのかを検討する予定であったが、実際にはエージェントシミュレーションを実装するに留まってしまった。次年度中に行動実験、可能であれば脳機能画像計測まで進めていきたい。
|
Strategy for Future Research Activity |
第一に、2021年度に行ったエージェントシミュレーションでは、環境としては相互依存構造があるにもかかわらず、モデルは相互依存性を含んでいないという問題点がある。他者の挙動を考慮するようなモデルを検討すべきだが、その際特に、他者の(表に出た)行動のみを組み込むべきか、それとも他者の内部状態を推定するようなモデルにすべきか、を検討していく必要がある。また、時系列に従ってエージェントの内部状態が変化する可能性を十分に検討できていない。特に、学習則が途中で変化する可能性も今後検討したい。 第二に、実際のヒトで被験者実験を行い、エージェントシミュレーション結果と比較した上でモデルの再検討、より適切なモデルの選択を行いたい。
|
Causes of Carryover |
コロナウイルス蔓延によって2020年度分の科研費の繰り越しが発生した。2021年度も国内外への学会出張を行わず、かつ被験者実験も行わなかったため、次年度使用額が発生した。2022年度には被験者実験を行い、また国内への出張は再開を検討している。
|