2022 Fiscal Year Annual Research Report

Emergence of social relationship in co-learning system: exploitation in prisoner's dilemma game

Research Project

Project/Area Number	21J01393
Allocation Type	Single-year Grants
Research Institution	The Graduate University for Advanced Studies
Principal Investigator	藤本悠雅総合研究大学院大学, 先導科学研究科, 特別研究員(PD)
Project Period (FY)	2021-04-28 – 2024-03-31
Keywords	ゲーム理論 / 繰り返しゲーム / 進化 / 学習 / 間接互恵
Outline of Annual Research Achievements	間接互恵は人間社会における協力のメカニズムを説明できると期待されているモデルである。そこでは、個人はある別の個人に対して評価に基づいて協力するかどうかの行動を選択し、その行動を他者から評価される。このモデルにおいて、個人が独立に他者の評価を持ち評価にエラーが入る状況は、個人間の評価の関係を複雑にし、その誰が誰を善人と評価しているかの複雑な二次元構造は数理的に未解明であった。我々はその数理を明らかにし、論文として出版した。この研究は社会における人間の信頼関係を基礎づけるものである。続いて、我々は同じモデルにおいて、ある行動選択・評価づけをするルールに別のルールが侵入する進化的なプロセスを考え、協力を保てるルールが存在するかどうかの議論を行った。結果として、discriminatorでsimple standingと呼ばれるルールが進化的に安定になることを発見し、個人間で他者に対する評価を共有できない状況で協力を保つには、適度に単純な評価づけをすることが重要になることを明らかにした。以上の研究結果は、現在論文誌に投稿中である。繰り返しゲームは人間のふるまい予測や、人工知能がゲームを学習する上で使われる枠組みであり、そこでは複数の個人が毎回行動を選択し、選んだ行動の組み合わせに応じて毎回報酬を得る状況を考える。この繰り返しゲームで過去の行動を記憶して次の行動を選択できる個人同士が学習によってどのような関係を作るかという問題は、複雑で理論的には未解明である。我々は、特に個人間の報酬が競合するゼロサムゲームにおいてこの問題に取り組み、学習を通して個人の関係は最適なもの（Nash均衡）からむしろ遠ざかっていくという結果を得た。以上の研究結果は、現在conferenceに投稿中である。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 本研究の目的は、繰り返しゲームにおいて個人が過去の行動を参照できる（メモリのある）状況を考え、両者が戦略を学習する過程を力学系で分析することである。また、課題の一つとして、計算機科学の問題に対してこの相互学習の力学系分析を応用することが挙げられていた。申請者は、計算機科学においてゼロサムゲームでの収束問題が存在することを新しく認知し、その問題に対して本研究の手法を応用した。結果として、メモリのある相互学習が複雑な経路で発散する現象を新しく発見し、力学系として現象を分析することに成功した。この結果は計算機科学において新しい問題意識を提示し、conferenceに投稿中である。この点で、元々予定していた研究については順調に進展していると言える。また、当初予定していた研究目的を超え、受入研究者とのコラボレーションの結果として個人が私的評価を行う間接互恵における協力を議論するというゲーム理論における新しい問題意識を得た。この結果について論文をすでに出版し、この後の結果についても論文誌に投稿中である。これらの研究成果は元々予定されていなかったため、我々の研究は予定以上に進展していると言える。
Strategy for Future Research Activity	我々は、メモリのある相互学習が目指すべき関係（Nash均衡）から発散してしまうという新しい現象・問題意識を得ている。本年度は、この新しい問題を解決するために、Nash均衡に収束するアルゴリズムの探索を行う。ゼロサムゲームにおけるNash均衡への収束アルゴリズムは計算機科学でここ数年で発展しつつあるテーマであり、新しい収束メカニズムを発見できれば大きなインパクトがあると期待できる。また、私的評価の間接互恵に関しても引き続き研究を行う。我々が現在まで分析したのは、個人が協力/裏切りの行動（第一次情報）を良い/悪い個人に対して（第二次情報）行う状況に対して良い/悪いの評価を与える二次評価ルールの範囲である。一方で、これまでの間接互恵の研究では行動を行う個人が良い/悪い（第三次情報）やそれ以上を考えることが普通である。このような状況に対する私的評価の間接互恵は数理的に未解明である。我々はこれまでに生み出した私的評価の間接互恵に関する分析手法をより拡張し、協力の発生をより精密に議論することを目指す。