Project/Area Number |
23K17547
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 7:Economics, business administration, and related fields
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
Project Period (FY) |
2023-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Fiscal Year 2024: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2023: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム / 最適化 |
Outline of Research at the Start |
本研究では,機械学習と情報理論の観点から,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない状況におけるゲームの帰結 (均衡) を求める問題を扱う.これは部分観測可能マルコフ決定過程 (POMDP) に帰着できることが知られているが,一般には決定不能な問題であり,解析的な分析が可能な定式化や解法は未だ見つかっていない長年の学際的かつ挑戦的な課題である.本応募では機械学習理論および情報理論の観点から,POMDPを俯瞰し,大規模な問題に適用可能な,精度保証つきの近似解法を構築する.
|
Outline of Annual Research Achievements |
本研究では,計算機科学の諸分野の理論から,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え,そのゲームの帰結(均衡)を求める問題を扱う.昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組み、情報処理学会全国大会にて発表し、国際論文誌への投稿準備を進めている.
次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる(利得の)勾配情報の下で、N人単調ゲームにおける終極反復収束(近似でない均衡に有限回で収束, last-iterate convergence)のレートを導出した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度の突然変異付きレプリケータダイナミクスを利用した分析を進める一方で、理論生物学でよく用いられる確率動学の計算に取り組んだ。確率動学は有限集団における代表的なダイナミクスであり、無限集団におけるレプリケータダイナミクスの帰結は初期の戦略分布に依存する一方で、確率動学の帰結は初期の戦略分布に依存しないことが知られている。まずは戦略の総数が抑えられる見間違えのある環境で計算を進め、有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略(およびその拡張)が優位になりやすい条件を明らかにした.この成果は国内学会で発表し,国際論文誌への投稿準備を進めている.
次に、突然変異付きレプリケータダイナミクスの構造を利用した均衡計算アルゴリズムの改良を進めた。ノイズを含みうる(利得の)勾配情報の下で、N人単調ゲームにおける終極反復収束(近似でない均衡に有限回で収束, last-iterate convergence)のレートを導出した。これは昨年の成果の一般化であるだけでなく、多数の学習アルゴリムを特殊ケースを含む形でアルゴリズムの枠組みを提案している。具体的には、観察される利得関数を摂動させて均衡の近傍(近似均衡)に収束させやすくする摂動型アルゴリズムのクラスを提案した。従来は、正則化項に何らかの距離関数を追加して、利得関数を直接は摂動させないやり方が主流であった。これに対して本研究は利得関数を直接摂動して、その摂動の量をうまく調整するアプローチから、終極反復収束を示すことに成功した。この成果は人工知能、とくに機械学習分野のトップ会議であるICML2024に採択された。
|
Strategy for Future Research Activity |
まずは無限集団のにおけるレプリケータダイナミクスの英語論文化を進めたい。とくに単独裏切-相互処罰という新しい戦略の発見を成果にまとめたい。確率動学の分析は、レプリケータダイナミクスの知見を活かして、行動の見間違えおよび取り違えの2つのケースの計算を進め、自発的に協力が発生する仕組みを理解していきたい。
均衡計算アルゴリズムについては、引き続きノイズを含みうる(利得の)勾配情報の下で、N人単調ゲームにおける終極反復収束を実現するアルゴリズムの設計・解析を継続する。とくに今のアルゴリズムは、異なるクラスのアルゴリズム、例えばOptimistic Mirror Descentなど、より収束レートが遅いことがわかっている。そこで我々が提案する摂動型アルゴリズムで同等の収束レートを実現する方法がないかを探索する。また、これまでの成果は標準型ゲームに限定していたので、展開型ゲームやシュタッケルベルグゲームにおける摂動型アルゴリズムの開発を進める。
|