Sequential Decision Making with Imperfect Information: An application of POMDP
Project/Area Number |
20K20752
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 7:Economics, business administration, and related fields
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
Iwasaki Atsushi 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2021: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | ゲーム理論 / 繰り返しゲーム / アルゴリズム / 最適化 / 計量経済学 / 私的観測 |
Outline of Research at the Start |
本研究では,情報系諸分野の理論を探索して,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下で繰り返し行われる意思決定をゲーム理論の枠組みで考え,そのゲームの帰結 (均衡) を求める.これは部分観測可能マルコフ決定過程に帰着できることが知られているが,解析可能な定式化や解法は未だ見つかっていない.そこで,近年発展が著しい機械学習理論/制御理論/情報理論といった諸分野の理論から,大規模な問題に適用可能な,精度保証つきの近似解法を構築する.
|
Outline of Final Research Achievements |
This work aims to develop an analytical method for sequential decision-making under imperfect information. Specifically, we utilize a repeated game framework under private monitoring, where each player cannot directly observe the actions of others. We seek to determine the outcome (equilibrium) of such decision-making processes. First, we analyze the problem using the replicator-mutator dynamics commonly used in evolutionary games and identify the conditions under which Tit-For-Tat is replaced by Win-Stay, Lose-Shift. Next, we develop a mutation-driven Follow-The-Regularized-Leader (FTRL) algorithm based on the structure of this dynamics, and prove it handle N-player monotone games, which incluedes two-player zero-sum games and Cournot competitions.
|
Academic Significance and Societal Importance of the Research Achievements |
人がどのように協力する/しないかの仕組みは学際的な研究課題であり,繰り返しゲームは,いつ終わるかわからない相手との関係が協力を誘発するとして,その仕組みを解明する研究分野である.その中でも私的観測は,その有用性を指摘されながらも明らかになっていないことが多い研究課題である。これに対して本研究は、進化ゲームの枠組みを利用して、行動の取り違えにおける新しい戦略である単独裏切-相互処罰戦略を発見した。さらにその枠組みを学習アルゴリズムに応用し、私的観測のようなノイズ下でも均衡を計算できるアルゴリズムを開発した。
|
Report
(4 results)
Research Products
(31 results)