Sequential Decision Making with Imperfect Information: An application of POMDP

Research Project

Project/Area Number	20K20752
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 7:Economics, business administration, and related fields
Research Institution	The University of Electro-Communications
Principal Investigator	Iwasaki Atsushi 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
Project Period (FY)	2020-07-30 – 2023-03-31
Project Status	Completed (Fiscal Year 2022)
Budget Amount *help	¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000) Fiscal Year 2021: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000) Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Keywords	ゲーム理論 / 繰り返しゲーム / アルゴリズム / 最適化 / 計量経済学 / 私的観測
Outline of Research at the Start	本研究では，情報系諸分野の理論を探索して，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下で繰り返し行われる意思決定をゲーム理論の枠組みで考え，そのゲームの帰結 (均衡) を求める．これは部分観測可能マルコフ決定過程に帰着できることが知られているが，解析可能な定式化や解法は未だ見つかっていない．そこで，近年発展が著しい機械学習理論／制御理論／情報理論といった諸分野の理論から，大規模な問題に適用可能な，精度保証つきの近似解法を構築する．
Outline of Final Research Achievements	This work aims to develop an analytical method for sequential decision-making under imperfect information. Specifically, we utilize a repeated game framework under private monitoring, where each player cannot directly observe the actions of others. We seek to determine the outcome (equilibrium) of such decision-making processes. First, we analyze the problem using the replicator-mutator dynamics commonly used in evolutionary games and identify the conditions under which Tit-For-Tat is replaced by Win-Stay, Lose-Shift. Next, we develop a mutation-driven Follow-The-Regularized-Leader (FTRL) algorithm based on the structure of this dynamics, and prove it handle N-player monotone games, which incluedes two-player zero-sum games and Cournot competitions.
Academic Significance and Societal Importance of the Research Achievements	人がどのように協力する／しないかの仕組みは学際的な研究課題であり，繰り返しゲームは，いつ終わるかわからない相手との関係が協力を誘発するとして，その仕組みを解明する研究分野である．その中でも私的観測は，その有用性を指摘されながらも明らかになっていないことが多い研究課題である。これに対して本研究は、進化ゲームの枠組みを利用して、行動の取り違えにおける新しい戦略である単独裏切-相互処罰戦略を発見した。さらにその枠組みを学習アルゴリズムに応用し、私的観測のようなノイズ下でも均衡を計算できるアルゴリズムを開発した。

Report

(4 results)

2022 Annual Research Report Final Research Report ( PDF )
2021 Research-status Report
2020 Research-status Report

Research Products
(31 results)

All 2023 2022 2021 2020 Other

All Int'l Joint Research (2 results) Journal Article (4 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 4 results, Open Access: 3 results) Presentation (24 results) (of which Invited: 1 results) Remarks (1 results)

[Int'l Joint Research] New York University(米国)
- Related Report
  2022 Annual Research Report
[Int'l Joint Research] Northwestern University/New York University(米国)
- Related Report
  2022 Annual Research Report
[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023
- Author(s)
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki
- Journal Title
  
  Proceedings of The 26th International Conference on Artificial Intelligence and Statistics
  
  Volume: 206 Pages: 7999-8028
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Dynamics of Cooperation in Repeated Games with Private Monitoring2022
- Author(s)
  西野上和真、五十嵐瞭平、岩崎敦
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 63 Issue: 4 Pages: 1138-1148
- DOI
  10.20729/00217615
- Year and Date
  2022-04-15
- Related Report
  2022 Annual Research Report 2021 Research-status Report
- Peer Reviewed
[Journal Article] Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search2022
- Author(s)
  Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the 31th International Joint Conference on Artificial Intelligence (IJCAI-2022)
  
  Volume: Main Track Pages: 3-9
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games2022
- Author(s)
  Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the Thirty-Eighth Conference on Uncertainty in Artificial Intelligence PMLR
  
  Volume: 180 Pages: 1-10
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究2023
- Author(s)
  山田博瑛, 小宮山純平, 阿部拳之, 岩﨑敦
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦2023
- Author(s)
  研修医配属における地域間格差を調整するための制約のモンテカルロ木探索
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 公平なインターバルスケジューリング問題に関する研究2023
- Author(s)
  酒井洸星, 岩崎敦
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 村井伸一郎, 岩崎敦2023
- Author(s)
  取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022
- Author(s)
  豊島健太郎
- Organizer
  人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022
- Author(s)
  岩崎敦
- Organizer
  人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022
- Author(s)
  岩崎敦
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
- Related Report
  2022 Annual Research Report
[Presentation] 二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束2022
- Author(s)
  豊島健太郎
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
- Related Report
  2022 Annual Research Report
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
- Related Report
  2022 Annual Research Report
[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022
- Author(s)
  坂本充生
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report
[Presentation] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022
- Author(s)
  五十嵐瞭平
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report
[Presentation] クールノー競争におけるマルチエージェント強化学習に関する研究2022
- Author(s)
  豊島健太郎
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  情報処理学会第84回全国大会
- Related Report
  2021 Research-status Report
[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- Author(s)
  坂本充生
- Organizer
  第24回情報論的学習理論ワークショップ (IBIS2021)
- Related Report
  2021 Research-status Report
[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- Author(s)
  坂本充生
- Organizer
  日本OR学会秋季研究発表会
- Related Report
  2021 Research-status Report
[Presentation] ほぼ公的観測下の囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  日本OR学会秋季研究発表会
- Related Report
  2021 Research-status Report
[Presentation] 見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究2021
- Author(s)
  坂本充生
- Organizer
  第２０回情報科学技術フォーラム（選奨論文）
- Related Report
  2021 Research-status Report
[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  第２０回情報科学技術フォーラム（選奨論文）
- Related Report
  2021 Research-status Report
[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  人工知能学会全国大会
- Related Report
  2021 Research-status Report
[Presentation] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究2021
- Author(s)
  坂本充生
- Organizer
  人工知能学会全国大会
- Related Report
  2021 Research-status Report
[Presentation] 反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定2021
- Author(s)
  島野雄貴
- Organizer
  人工知能学会全国大会
- Related Report
  2021 Research-status Report
[Presentation] 見間違えのある繰り返し囚人のジレンマにおける協力の発生と振動2021
- Author(s)
  岩崎敦
- Organizer
  日本オペレーションズ・リサーチ学会2021年春季研究シンポジウム
- Related Report
  2020 Research-status Report
- Invited
[Presentation] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2020
- Author(s)
  西野上和真
- Organizer
  FIT2020第19回情報科学技術フォーラム
- Related Report
  2020 Research-status Report
[Remarks] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/
- Related Report
  2022 Annual Research Report 2021 Research-status Report 2020 Research-status Report

Sequential Decision Making with Imperfect Information: An application of POMDP

Principal Investigator

Iwasaki Atsushi 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)

Report

Research Products

[Int'l Joint Research] New York University(米国)

Related Report

[Int'l Joint Research] Northwestern University/New York University(米国)

Related Report

[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023

Author(s)

Journal Title

Related Report

[Journal Article] Dynamics of Cooperation in Repeated Games with Private Monitoring2022

Author(s)

Journal Title

DOI

Year and Date

Related Report

[Journal Article] Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search2022

Author(s)

Journal Title

Related Report

[Journal Article] Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games2022

Author(s)

Journal Title

Related Report

[Presentation] オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究2023

Author(s)

Organizer

Related Report

[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎 敦2023

Author(s)

Organizer

Related Report

[Presentation] 公平なインターバルスケジューリング問題に関する研究2023

Author(s)

Organizer

Related Report

[Presentation] 村井伸一郎, 岩崎 敦2023

Author(s)

Organizer

Related Report

[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022

Author(s)

Organizer

Related Report

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Organizer

Related Report

[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022

Author(s)

Organizer

Related Report

[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022

Author(s)

Organizer

Related Report

[Presentation] 二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束2022

Author(s)

Organizer

Related Report

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Organizer

Related Report

[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022

Author(s)

Organizer

Related Report

[Presentation] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022

Author(s)

Organizer

Related Report

[Presentation] クールノー競争におけるマルチエージェント強化学習に関する研究2022

Author(s)

Organizer

Related Report

[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦2023

[Presentation] 村井伸一郎, 岩崎敦2023