2022 Fiscal Year Annual Research Report
不完全情報下での逐次的意思決定:部分観測マルコフ決定過程解法の探索
Project/Area Number |
20K20752
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | ゲーム理論 / 繰り返しゲーム / 計量経済学 / アルゴリズム / 最適化 |
Outline of Annual Research Achievements |
本研究では,計算機科学の諸分野の理論から,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え,そのゲームの帰結(均衡)を求める問題を扱う.
まず,進化ゲームでよく用いられる突然変異付きレプリケータダイナミクスを利用した分析を進め,有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略が優位になる条件を明らかにした.この成果は第19回情報科学技術フォーラムFIT2020船井ベストペーパー賞を受賞し,情報処理学会論文誌に掲載された.さらに,私的観測と行動の取り違えとの情報構造の違いから,単独裏切-相互処罰という新しい戦略を発見した.この成果は国内学会で発表し,国際論文誌への投稿する準備を進めている.
次に,突然変異付きレプリケータダイナミクスの構造を利用した正則化先導者追従 (Follow the Regularized Leader, FTRL) 法ベースの均衡計算アルゴリズムを開発に成功した.理論的にはN人単調ゲームという広いクラスを扱えることを証明した.この成果は私的観測でも利用できるようになっており,観測した不完全な(利得の)勾配情報を特定の方向へとわずかに変異させることで,均衡解に収束する特性をもたせることに成功した.この成果は第20回情報科学技術フォーラムFIT2021船井ベストペーパー賞を受賞し,人工知能分野のトップ会議であるUAI2022およびAISTATS2023に採録された.
|