不完全情報下での逐次的意思決定：機械学習と情報理論からの探索

研究課題

研究課題/領域番号	23K17547
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分7:経済学、経営学およびその関連分野
研究機関	電気通信大学
研究代表者	岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
研究期間 (年度)	2023-06-30 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円) 2024年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円) 2023年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
キーワード	ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム / 最適化
研究開始時の研究の概要	本研究では，機械学習と情報理論の観点から，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない状況におけるゲームの帰結 (均衡) を求める問題を扱う．これは部分観測可能マルコフ決定過程 (POMDP) に帰着できることが知られているが，一般には決定不能な問題であり，解析的な分析が可能な定式化や解法は未だ見つかっていない長年の学際的かつ挑戦的な課題である．本応募では機械学習理論および情報理論の観点から，POMDPを俯瞰し，大規模な問題に適用可能な，精度保証つきの近似解法を構築する．
研究実績の概要	本研究では，計算機科学の諸分野の理論から，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え，そのゲームの帰結（均衡）を求める問題を扱う．昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組み、情報処理学会全国大会にて発表し、国際論文誌への投稿準備を進めている．次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束（近似でない均衡に有限回で収束, last-iterate convergence）のレートを導出した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組んだ。確率動学は有限集団における代表的なダイナミクスであり、無限集団におけるレプリケータダイナミクスの帰結は初期の戦略分布に依存する一方で、確率動学の帰結は初期の戦略分布に依存しないことが知られている。まずは戦略の総数が抑えられる見間違えのある環境で計算を進め、有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略（およびその拡張）が優位になりやすい条件を明らかにした．この成果は国内学会で発表し，国際論文誌への投稿準備を進めている．次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束（近似でない均衡に有限回で収束, last-iterate convergence）のレートを導出した。これは昨年の成果の一般化であるだけでなく、多数の学習アルゴリムを特殊ケースを含む形でアルゴリズムの枠組みを提案している。具体的には、観察される利得関数を摂動させて均衡の近傍（近似均衡）に収束させやすくする摂動型アルゴリズムのクラスを提案した。従来は、正則化項に何らかの距離関数を追加して、利得関数を直接は摂動させないやり方が主流であった。これに対して本研究は利得関数を直接摂動して、その摂動の量をうまく調整するアプローチから、終極反復収束を示すことに成功した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
今後の研究の推進方策	まずは無限集団のにおけるレプリケータダイナミクスの英語論文化を進めたい。とくに単独裏切-相互処罰という新しい戦略の発見を成果にまとめたい。確率動学の分析は、レプリケータダイナミクスの知見を活かして、行動の見間違えおよび取り違えの2つのケースの計算を進め、自発的に協力が発生する仕組みを理解していきたい。均衡計算アルゴリズムについては、引き続きノイズを含みうる（利得の）勾配情報の下で、N人単調ゲームにおける終極反復収束を実現するアルゴリズムの設計・解析を継続する。とくに今のアルゴリズムは、異なるクラスのアルゴリズム、例えばOptimistic Mirror Descentなど、より収束レートが遅いことがわかっている。そこで我々が提案する摂動型アルゴリズムで同等の収束レートを実現する方法がないかを探索する。また、これまでの成果は標準型ゲームに限定していたので、展開型ゲームやシュタッケルベルグゲームにおける摂動型アルゴリズムの開発を進める。

報告書

(1件)

2023 実施状況報告書

研究成果
(11件)

すべて 2024 2023 その他

すべて国際共同研究 (1件) 雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 2件) 学会発表 (6件) (うち国際学会 1件、招待講演 1件) 備考 (1件)

[国際共同研究] New Youk Univerisity/Northwestern University(米国)
- 関連する報告書
  2023 実施状況報告書
[雑誌論文] 二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束2024
- 著者名/発表者名
  阿部拳之, 豊島健太郎, 坂本充生, 岩崎敦
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 65(5) ページ: 968-979
- 関連する報告書
  2023 実施状況報告書
- 査読あり
[雑誌論文] Adaptively Perturbed Mirror Descent for Learning in Games2024
- 著者名/発表者名
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki
- 雑誌名
  
  Proceedings of the 41st International Conference on Machine Learning
  
  巻: To appear
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023
- 著者名/発表者名
  Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki
- 雑誌名
  
  Proceedings of the 26th International Conference on Artificial Intelligence and Statistics
  
  巻: 206 ページ: 7999-8028
- 関連する報告書
  2023 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Slingshot Perturbation to Learning in Monotone Games2024
- 著者名/発表者名
  Atsushi Iwasaki
- 学会等名
  International Workshop on Learning in Misspecified Models and Beyond
- 関連する報告書
  2023 実施状況報告書
- 国際学会 / 招待講演
[学会発表] 二人零和マルコフゲームにおける状態抽象化法に関する研究2024
- 著者名/発表者名
  石橋宙希, 島野雄貴, 阿部拳之, 岩﨑敦
- 学会等名
  情報処理学会第86回全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 見間違えのある繰り返し囚人のジレンマの確率動学による分析2024
- 著者名/発表者名
  谷川颯希, 村井伸一郎, 岩﨑敦
- 学会等名
  情報処理学会第86回全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略2023
- 著者名/発表者名
  村井伸一郎, 岩崎敦
- 学会等名
  人工知能学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究2023
- 著者名/発表者名
  坂本充生, 阿部拳之, 蟻生開人, 岩崎敦
- 学会等名
  人工知能学会全国大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互処罰戦略2023
- 著者名/発表者名
  村井伸一郎, 岩崎敦
- 学会等名
  第２２回情報科学技術フォーラム（選奨論文）
- 関連する報告書
  2023 実施状況報告書
[備考] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/
- 関連する報告書
  2023 実施状況報告書

不完全情報下での逐次的意思決定：機械学習と情報理論からの探索

研究代表者

岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] New Youk Univerisity/Northwestern University(米国)

関連する報告書

[雑誌論文] 二人零和ゲームにおける突然変異駆動型正則化先導者追従法の終極反復収束2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Adaptively Perturbed Mirror Descent for Learning in Games2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Slingshot Perturbation to Learning in Monotone Games2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 二人零和マルコフゲームにおける状態抽象化法に関する研究2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 見間違えのある繰り返し囚人のジレンマの確率動学による分析2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互同期戦略2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 二人零和展開型ゲームにおける突然変異付き乗算型重み更新に関する研究2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 取り違えのある繰り返し囚人のジレンマにおける単独裏切-相互処罰戦略2023

著者名/発表者名

学会等名

関連する報告書

[備考] Computational Incentive Science

URL

関連する報告書

岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)