研究課題/領域番号 |
20K20752
|
研究機関 | 電気通信大学 |
研究代表者 |
岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
研究期間 (年度) |
2020-07-30 – 2022-03-31
|
キーワード | ゲーム理論 / 繰り返しゲーム / 私的観測 |
研究実績の概要 |
本研究では,計算機科学の諸分野の理論から,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え,そのゲームの帰結(均衡)を求める問題を扱う.これまで,不完全観測,とくに私的観測と呼ばれる環境下において,繰り返しゲームの広範的な解析は行われてこなかった.この状況では,プレイヤは相手の行動を予測するため,自らのノイズを含む観測をもとに,相手の観測履歴を統計的に推論しなければならない.このため推論対象となる観測履歴の数はゲームの繰り返し数に対して指数的に増加する.これは部分観測マルコフ決定過程 (Partially Observable Markov Decision Process, POMDP) に帰着できることが知られているが,一般には決定不能 (UNDECIDABLE) な問題であり,解析的な分析が可能な定式化や解法は未だ見つかっていない.
そこで今年度は私的観測下の繰り返し囚人のジレンマの帰結を,進化ゲームと学習アルゴリズムのそれぞれで計算し,分析した.まずレプリケータダイナミクスに突然変異を導入して,どのような戦略が生き残るかを分析した.その結果,完全観測では相手の裏切りを許さない戦略しか生き残らないが,不完全観測で初めて,相手の裏切りから相互協力を継続する戦略が生き残るようになることがわかった.この成果は情報科学技術フォーラムで発表し,その最優秀論文賞である船井ベストペーパー賞を受賞した.次に,方策勾配法を改良し,どのような方策を学習するかを吟味した.その結果,従来の学習アルゴリズムより高速によい均衡戦略を見つけることに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
人がどう協力する/しないかの仕組みは学際的な研究課題であり,繰り返しゲームは,いつ終わるかわからない相手との関係が協力を誘発するとして,その仕組みを解明する研究分野である.その中でも私的観測は,その有用性を指摘されながらも明らかになっていないことが多い研究課題であり,有名なしっぺ返し戦略 (Tit-for-tat, TFT) では継続的な協力を維持できないことがわかっている.一方で,その均衡計算は極めて難しい問題である.
そこで,均衡を求める代わりに,進化ゲームの帰結を計算することを考えた.進化ゲームの帰結は,均衡とは異なり,今日の戦略分布が生き残る戦略に影響する.そのような突然変異付きレプリケータダイナミクスを,状態数2以下の非同相な有限状態機械戦略の空間で実行した.その結果,完全観測下は,一度でも裏切ったら相手を絶対許さないような不寛容な戦略しか生き残らない.一方で不完全観測下では,勝ち残り・負け逃げ (Win-Stay, Lose-Shift, WSLS) 戦略が最大多数を占めるようになる.これは最初は協力し,相手が裏切ったら自分も裏切るようになる.そしてお互いの裏切りを観測したら協力に戻る戦略である.いっけん奇妙に見えるこの戦略は不完全観測下で,見間違えが起こった後にお互いに協力状態を回復させる機構をもち,高い協力率を達成する.
では,不寛容な戦略やこのWSLSが生き残らないときはどんな戦略が生き残るだろうか?このときは,TFTを含む複数の戦略が共存する.さらにその共存状態と等価な混合戦略均衡が存在することがわかった.さらに改良した方策勾配法はこれらの結果を高速に発見できることを確認した.
|
今後の研究の推進方策 |
今後はまず,突然変異付きレプリケータダイナミクスから得た様々な結果をAAAI/IJCAIなどの人工知能分野トップの国際会議に投稿することを目指す.次に寡占市場における価格競争や企業の参入障壁,企業の研究開発投資といった課題に分析対象を拡張する.一方で,こうした課題を扱うには,有限状態機械で戦略を表記するのには限界がある.つまり,モデルが複雑になるとその戦略の数が指数的に増加するため,レプリケータダイナミクスの計算や結果の評価が難しくなる.そこで,学習アルゴリズムの1つである方策勾配法を用いて,不完全観測下のゲームでどんな戦略を獲得するかを観察する.すでに囚人のジレンマであれば,提案した方策勾配法がWSLSを初め,均衡に近い戦略を学習することががわかっている(2021年人工知能学会全国大会で発表予定).そこで,この手法がなぜうまく学習するのかを理論的に明らかにするとともに,複雑なモデルへの実装と評価をすすめる.
|
次年度使用額が生じた理由 |
コロナ禍のため,旅費を中心に予定通りに執行できなかったため.
|