2021 Fiscal Year Annual Research Report

Emergence of social relationship in co-learning system: exploitation in prisoner's dilemma game

Research Project

Project/Area Number	21J01393
Allocation Type	Single-year Grants
Research Institution	The Graduate University for Advanced Studies
Principal Investigator	藤本悠雅総合研究大学院大学, 先導科学研究科, 特別研究員(PD)
Project Period (FY)	2021-04-28 – 2024-03-31
Keywords	ゲーム理論 / マルチエージェント / 間接互恵 / 協力・搾取
Outline of Annual Research Achievements	本研究は、社会における複雑な人間関係をゲーム理論を用いて数理的に改名することが大きな課題である。一年目の小課題としては、個人の参照する情報が異なる非対称な状況が、個人間の獲得する利得の非対称性にどう反映されるかを調べることが目的であった。今年度、参照する情報が多く（より多様な選択肢から戦略を選べる）個人が、参照する情報の少ない個人に対して利得が少ないという結果を得た。この結果は、むしろゲームで有利な状況を持つプレイヤーがかえって相手に搾取されてしまうという、非自明な現象を表している。以上の結果を論文としてまとめ出版した。以上の結果は、個人動詞が何度も直接的に利益をやりとりすることを過程したものである。しかし現実社会はとても大規模で、見知らぬ人と一度きりの利益のやりとりを行う状況が少なからず見られる。このような状況では、個人が利益を与える個人と利益を受ける個人が必ずしも一致せず。個人感の関係性はより複雑なものにうなると考えられる。実際に、個人が相手に協力するか裏切るかを判別するための、他社の善悪を評価する構造は、現実に見られるような個人が独立に評価を行い、かつ評価に間違いがあるような状況では、非常に複雑で数理的に未解明な問題であった。申請者はさらなる発展的課題としてその問題に取り組み、複雑な評価構造を数理的に記述することに成功し、善人から悪人まで多様な個人が共存しうる仕組みを解き明かした。以上の結果は、複数の学会で公表され、さらに論文としてまとめ現在は投稿中である。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 本研究では、現実の複雑な社会構造をゲーム理論の枠組みを用いて数理的に理解することが大きな目的である。本来の計画では、自分が利益を与える個人と自分が利益を受け取る個人が等しい、最も単純な直接互恵の状況のみを取り扱い、その中での個人の社会関係を分析する予定であった。しかし、直接互恵について当初予定されていた研究はそのままに、自分が利益を与える個人と自分が利益を受け取る個人が異なる、より複雑な人間などの社会を表現する間接互恵の状況に対して取り組んで研究を行うことができた。詳しくは、間接互恵では個人間で善悪を評価し合う構造が（現実の社会でそうであるように）極めて重要であり、この善悪の評価構造は個人が独立に評価を行い（private assessment）、かつその評価に誤り（error）が存在しうる状況に関しては分析されていなかった上で、その評価構造を数理的に解き明かすことに成功した。現状の課題を達成しながら、当初は予期していなかった新規の問題に対しても専門家とコラボし取り組むことができたので、当初の計画以上に進展していると判断した。
Strategy for Future Research Activity	直接互恵については、予定通り引き続きの研究を行う。直接互恵の分析では、プレイヤーが自分がより多くの利得を獲得できる行動選択を行うように戦略を変える過程として、（これまでの互いの行動の履歴などの）ゲームの情報（state）を把握した上で行動を選択し、得られた利得からその行動の価値を更新していく強化学習系を想定している。昨年度の研究では、ゲームの情報の把握や行動の価値の更新が正確に行われる、言わば理想的な学習を取り扱っていた。しかし、その理想的な学習の定式化は、我々がゲームの全ての設定をあらかじめ知っているから可能なことであり、実際に産業で使われる強化学習ではゲームの設定をプレイヤーが把握しているわけでもなく、これと同じことが現実の人間についても言える。そこで本年度は、実際に機械学習やmulti-agent learningの文脈で使われるQ-learningなどのより現実的で非理想的な強化学習系を用いて、両者の間に学習の結果どのような社会関係が発生するかを調べる。また間接互恵については、昨年度の研究ではnoisy and private assessmentな状況で個人間にどのような評価構造が生まれるかを研究した。しかし、ここから評価の更新ルール（social norm）の異なる個人間でどちらが多く利得を獲得して相手よりも有利にふるまえるかという進化的な視点を欠いていた。人間のような大規模な社会の形成を歴史を考える上で、あるいは人間が進化的に獲得してきた心理を理解する上で、この間接互恵での評価ルールの進化的過程を考えることは重要である。そこで本年度は、複雑な評価構造についての数理的な理解を深めたことを活かし、どのような評価ルールを持つ個人が進化的に選択されるかの課題についても取り組んでいく。