2022 Fiscal Year Annual Research Report

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

Research Project

Project/Area Number	20K20752
Research Institution	The University of Electro-Communications
Principal Investigator	岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
Project Period (FY)	2020-07-30 – 2023-03-31
Keywords	ゲーム理論 / 繰り返しゲーム / 計量経済学 / アルゴリズム / 最適化
Outline of Annual Research Achievements	本研究では，計算機科学の諸分野の理論から，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え，そのゲームの帰結（均衡）を求める問題を扱う．まず，進化ゲームでよく用いられる突然変異付きレプリケータダイナミクスを利用した分析を進め，有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略が優位になる条件を明らかにした．この成果は第19回情報科学技術フォーラムFIT2020船井ベストペーパー賞を受賞し，情報処理学会論文誌に掲載された．さらに，私的観測と行動の取り違えとの情報構造の違いから，単独裏切-相互処罰という新しい戦略を発見した．この成果は国内学会で発表し，国際論文誌への投稿する準備を進めている．次に，突然変異付きレプリケータダイナミクスの構造を利用した正則化先導者追従 (Follow the Regularized Leader, FTRL) 法ベースの均衡計算アルゴリズムを開発に成功した．理論的にはN人単調ゲームという広いクラスを扱えることを証明した．この成果は私的観測でも利用できるようになっており，観測した不完全な（利得の）勾配情報を特定の方向へとわずかに変異させることで，均衡解に収束する特性をもたせることに成功した．この成果は第20回情報科学技術フォーラムFIT2021船井ベストペーパー賞を受賞し，人工知能分野のトップ会議であるUAI2022およびAISTATS2023に採録された．

Research Products
(17 results)

All 2023 2022 Other

All Int'l Joint Research (2 results) Journal Article (4 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 4 results, Open Access: 3 results) Presentation (10 results) Remarks (1 results)

[Int'l Joint Research] New York University(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  New York University
[Int'l Joint Research] Northwestern University/New York University(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Northwestern University/New York University
[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023
- Author(s)
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki
- Journal Title
  
  Proceedings of The 26th International Conference on Artificial Intelligence and Statistics
  
  Volume: 206 Pages: 7999-8028
- Peer Reviewed / Open Access
[Journal Article] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  西野上和真、五十嵐瞭平、岩崎敦
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 63 Pages: 1138～1148
- DOI
  10.20729/00217615
- Peer Reviewed
[Journal Article] Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search2022
- Author(s)
  Kenshi Abe, Junpei Komiyama, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the 31th International Joint Conference on Artificial Intelligence (IJCAI-2022)
  
  Volume: Main Track Pages: 3-9
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games2022
- Author(s)
  Kenshi Abe, Mitsuki Sakamoto, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the Thirty-Eighth Conference on Uncertainty in Artificial Intelligence PMLR
  
  Volume: 180 Pages: 1-10
- Peer Reviewed / Open Access
[Presentation] オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究2023
- Author(s)
  山田博瑛, 小宮山純平, 阿部拳之, 岩﨑敦
- Organizer
  情報処理学会第85回全国大会
[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦2023
- Author(s)
  研修医配属における地域間格差を調整するための制約のモンテカルロ木探索
- Organizer
  情報処理学会第85回全国大会
[Presentation] 公平なインターバルスケジューリング問題に関する研究2023
- Author(s)
  酒井洸星, 岩崎敦
- Organizer
  情報処理学会第85回全国大会
[Presentation] 村井伸一郎, 岩崎敦2023
- Author(s)
  取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略
- Organizer
  情報処理学会第85回全国大会
[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022
- Author(s)
  豊島健太郎
- Organizer
  人工知能学会全国大会
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  人工知能学会全国大会
[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022
- Author(s)
  岩崎敦
- Organizer
  人工知能学会全国大会
[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022
- Author(s)
  岩崎敦
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
[Presentation] 二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束2022
- Author(s)
  豊島健太郎
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  第２１回情報科学技術フォーラム（選奨論文）
[Remarks] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/

2022 Fiscal Year Annual Research Report

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

Principal Investigator

岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

Research Products

[Int'l Joint Research] New York University(米国)

Country Name

Counterpart Institution

[Int'l Joint Research] Northwestern University/New York University(米国)

Country Name

Counterpart Institution

[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023

Author(s)

Journal Title

[Journal Article] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Journal Title

DOI

[Journal Article] Anytime Capacity Expansion in Medical Residency Match by Monte Carlo Tree Search2022

Author(s)

Journal Title

[Journal Article] Mutation-driven follow the regularized leader for last-iterate convergence in zero-sum games2022

Author(s)

Journal Title

[Presentation] オンライン環境において公平な資源配分を実現するアルゴリズムに関する研究2023

Author(s)

Organizer

[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎 敦2023

Author(s)

Organizer

[Presentation] 公平なインターバルスケジューリング問題に関する研究2023

Author(s)

Organizer

[Presentation] 村井伸一郎, 岩崎 敦2023

Author(s)

Organizer

[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022

Author(s)

Organizer

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Organizer

[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022

Author(s)

Organizer

[Presentation] 制約付きマッチングのためのデータ駆動型課税規則に関する研究2022

Author(s)

Organizer

[Presentation] 二人零和ゲームにおける突然変異駆動型Follow-The-Regularized-Leaderの終極反復収束2022

Author(s)

Organizer

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Organizer

[Remarks] Computational Incentive Science

URL

岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

[Presentation] 板垣圭知, 小宮山純平, 阿部拳之, 岩崎敦2023

[Presentation] 村井伸一郎, 岩崎敦2023