Sequential Decision Making with Imperfect Information: Machine Learning and Information Theory

Research Project

Project/Area Number	23K17547
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 7:Economics, business administration, and related fields
Research Institution	The University of Electro-Communications
Principal Investigator	岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
Project Period (FY)	2023-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000) Fiscal Year 2024: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000) Fiscal Year 2023: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Keywords	ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム / 最適化
Outline of Research at the Start	本研究では，機械学習と情報理論の観点から，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない状況におけるゲームの帰結 (均衡) を求める問題を扱う．これは部分観測可能マルコフ決定過程 (POMDP) に帰着できることが知られているが，一般には決定不能な問題であり，解析的な分析が可能な定式化や解法は未だ見つかっていない長年の学際的かつ挑戦的な課題である．本応募では機械学習理論および情報理論の観点から，POMDPを俯瞰し，大規模な問題に適用可能な，精度保証つきの近似解法を構築する．
Outline of Annual Research Achievements	本研究では，計算機科学の諸分野の理論から，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え，そのゲームの帰結（均衡）を求める問題を扱う．昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組み、情報処理学会全国大会にて発表し、国際論文誌への投稿準備を進めている．次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束（近似でない均衡に有限回で収束, last-iterate convergence）のレートを導出した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組んだ。確率動学は有限集団における代表的なダイナミクスであり、無限集団におけるレプリケータダイナミクスの帰結は初期の戦略分布に依存する一方で、確率動学の帰結は初期の戦略分布に依存しないことが知られている。まずは戦略の総数が抑えられる見間違えのある環境で計算を進め、有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略（およびその拡張）が優位になりやすい条件を明らかにした．この成果は国内学会で発表し，国際論文誌への投稿準備を進めている．次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束（近似でない均衡に有限回で収束, last-iterate convergence）のレートを導出した。これは昨年の成果の一般化であるだけでなく、多数の学習アルゴリムを特殊ケースを含む形でアルゴリズムの枠組みを提案している。具体的には、観察される利得関数を摂動させて均衡の近傍（近似均衡）に収束させやすくする摂動型アルゴリズムのクラスを提案した。従来は、正則化項に何らかの距離関数を追加して、利得関数を直接は摂動させないやり方が主流であった。これに対して本研究は利得関数を直接摂動して、その摂動の量をうまく調整するアプローチから、終極反復収束を示すことに成功した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
Strategy for Future Research Activity	まずは無限集団のにおけるレプリケータダイナミクスの英語論文化を進めたい。とくに単独裏切-相互処罰という新しい戦略の発見を成果にまとめたい。確率動学の分析は、レプリケータダイナミクスの知見を活かして、行動の見間違えおよび取り違えの2つのケースの計算を進め、自発的に協力が発生する仕組みを理解していきたい。均衡計算アルゴリズムについては、引き続きノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束を実現するアルゴリズムの設計・解析を継続する。とくに今のアルゴリズムは、異なるクラスのアルゴリズム、例えばOptimistic Mirror Descentなど、より収束レートが遅いことがわかっている。そこで我々が提案する摂動型アルゴリズムで同等の収束レートを実現する方法がないかを探索する。また、これまでの成果は標準型ゲームに限定していたので、展開型ゲームやシュタッケルベルグゲームにおける摂動型アルゴリズムの開発を進める。

Report

(1 results)

2023 Research-status Report

Research Products
(11 results)

All 2024 2023 Other

All Int'l Joint Research (1 results) Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 2 results) Presentation (6 results) (of which Int'l Joint Research: 1 results, Invited: 1 results) Remarks (1 results)

[Int'l Joint Research] New Youk Univerisity/Northwestern University(米国)
- Related Report
  2023 Research-status Report
[Journal Article] 二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束2024
- Author(s)
  阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 65(5) Pages: 968-979
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] Adaptively Perturbed Mirror Descent for Learning in Games2024
- Author(s)
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the 41st International Conference on Machine Learning
  
  Volume: To appear
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023
- Author(s)
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki
- Journal Title
  
  Proceedings of the 26th International Conference on Artificial Intelligence and Statistics
  
  Volume: 206 Pages: 7999-8028
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Slingshot Perturbation to Learning in Monotone Games2024
- Author(s)
  Atsushi Iwasaki
- Organizer
  International Workshop on Learning in Misspecified Models and Beyond
- Related Report
  2023 Research-status Report
- Int'l Joint Research / Invited
[Presentation] 二人零和マルコフゲームにおける状態抽象化法に関する研究2024
- Author(s)
  石橋宙希, 島野雄貴, 阿部拳之, 岩﨑敦
- Organizer
  情報処理学会第86回全国大会
- Related Report
  2023 Research-status Report
[Presentation] 見間違えのある繰り返し囚人のジレンマの確率動学による分析2024
- Author(s)
  谷川颯希, 村井伸一郎, 岩﨑敦
- Organizer
  情報処理学会第86回全国大会
- Related Report
  2023 Research-status Report
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略2023
- Author(s)
  村井伸一郎, 岩崎敦
- Organizer
  人工知能学会全国大会
- Related Report
  2023 Research-status Report
[Presentation] 二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究2023
- Author(s)
  坂本充生, 阿部拳之, 蟻生開人, 岩崎敦
- Organizer
  人工知能学会全国大会
- Related Report
  2023 Research-status Report
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互処罰戦略2023
- Author(s)
  村井伸一郎, 岩崎敦
- Organizer
  第２２回情報科学技術フォーラム（選奨論文）
- Related Report
  2023 Research-status Report
[Remarks] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/
- Related Report
  2023 Research-status Report

Sequential Decision Making with Imperfect Information: Machine Learning and Information Theory

Principal Investigator

岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)

Current Status of Research Progress

Reason

Report

Research Products

[Int'l Joint Research] New Youk Univerisity/Northwestern University(米国)

Related Report

[Journal Article] 二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束2024

Author(s)

Journal Title

Related Report

[Journal Article] Adaptively Perturbed Mirror Descent for Learning in Games2024

Author(s)

Journal Title

Related Report

[Journal Article] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023

Author(s)

Journal Title

Related Report

[Presentation] Slingshot Perturbation to Learning in Monotone Games2024

Author(s)

Organizer

Related Report

[Presentation] 二人零和マルコフゲームにおける状態抽象化法に関する研究2024

Author(s)

Organizer

Related Report

[Presentation] 見間違えのある繰り返し囚人のジレンマの確率動学による分析2024

Author(s)

Organizer

Related Report

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略2023

Author(s)

Organizer

Related Report

[Presentation] 二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究2023

Author(s)

Organizer

Related Report

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互処罰戦略2023

Author(s)

Organizer

Related Report

[Remarks] Computational Incentive Science

URL

Related Report

岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)