2022 Fiscal Year Final Research Report
Sequential Decision Making with Imperfect Information: An application of POMDP
Project/Area Number |
20K20752
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 7:Economics, business administration, and related fields
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
Iwasaki Atsushi 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | ゲーム理論 / 繰り返しゲーム / アルゴリズム / 最適化 |
Outline of Final Research Achievements |
This work aims to develop an analytical method for sequential decision-making under imperfect information. Specifically, we utilize a repeated game framework under private monitoring, where each player cannot directly observe the actions of others. We seek to determine the outcome (equilibrium) of such decision-making processes. First, we analyze the problem using the replicator-mutator dynamics commonly used in evolutionary games and identify the conditions under which Tit-For-Tat is replaced by Win-Stay, Lose-Shift. Next, we develop a mutation-driven Follow-The-Regularized-Leader (FTRL) algorithm based on the structure of this dynamics, and prove it handle N-player monotone games, which incluedes two-player zero-sum games and Cournot competitions.
|
Free Research Field |
ゲーム理論
|
Academic Significance and Societal Importance of the Research Achievements |
人がどのように協力する/しないかの仕組みは学際的な研究課題であり,繰り返しゲームは,いつ終わるかわからない相手との関係が協力を誘発するとして,その仕組みを解明する研究分野である.その中でも私的観測は,その有用性を指摘されながらも明らかになっていないことが多い研究課題である。これに対して本研究は、進化ゲームの枠組みを利用して、行動の取り違えにおける新しい戦略である単独裏切-相互処罰戦略を発見した。さらにその枠組みを学習アルゴリズムに応用し、私的観測のようなノイズ下でも均衡を計算できるアルゴリズムを開発した。
|