研究課題/領域番号 |
20K20752
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分7:経済学、経営学およびその関連分野
|
研究機関 | 電気通信大学 |
研究代表者 |
岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
研究期間 (年度) |
2020-07-30 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2021年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2020年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
|
キーワード | ゲーム理論 / 繰り返しゲーム / アルゴリズム / 最適化 / 計量経済学 / 私的観測 |
研究開始時の研究の概要 |
本研究では,情報系諸分野の理論を探索して,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下で繰り返し行われる意思決定をゲーム理論の枠組みで考え,そのゲームの帰結 (均衡) を求める.これは部分観測可能マルコフ決定過程に帰着できることが知られているが,解析可能な定式化や解法は未だ見つかっていない.そこで,近年発展が著しい機械学習理論/制御理論/情報理論といった諸分野の理論から,大規模な問題に適用可能な,精度保証つきの近似解法を構築する.
|
研究成果の概要 |
本研究では,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定をくり返しゲームの枠組みで考え,その帰結(均衡)を求める問題を扱う.まず,進化ゲームでよく用いられる突然変異付きレプリケータダイナミクスを利用した分析を進め,有名なしっぺ返し戦略の代わりに勝ち残り・負け逃げ戦略が優位になる条件を明らかにした.次に,そのダイナミクスの構造を利用した正則化先導者追従 (FTRL) ベースの均衡計算アルゴリズムを開発し、N人単調ゲームを扱えることを証明した.
|
研究成果の学術的意義や社会的意義 |
人がどのように協力する/しないかの仕組みは学際的な研究課題であり,繰り返しゲームは,いつ終わるかわからない相手との関係が協力を誘発するとして,その仕組みを解明する研究分野である.その中でも私的観測は,その有用性を指摘されながらも明らかになっていないことが多い研究課題である。これに対して本研究は、進化ゲームの枠組みを利用して、行動の取り違えにおける新しい戦略である単独裏切-相互処罰戦略を発見した。さらにその枠組みを学習アルゴリズムに応用し、私的観測のようなノイズ下でも均衡を計算できるアルゴリズムを開発した。
|