2021 Fiscal Year Research-status Report
不完全情報下での逐次的意思決定:部分観測マルコフ決定過程解法の探索
Project/Area Number |
20K20752
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
|
Project Period (FY) |
2020-07-30 – 2023-03-31
|
Keywords | ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム |
Outline of Annual Research Achievements |
本研究では,不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする.具体的には,私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え,そのゲームの帰結(均衡)を求める問題を扱う.これまで,私的観測下での,繰り返しゲームの広範的な解析は十分でなかった.この状況では,プレイヤは相手の行動を予測するため,自らのノイズを含む観測をもとに,相手の観測履歴を統計的に推論しなければならない.この推論対象となる観測履歴の数はゲームの繰り返し数に対して指数的に増加する.これは部分観測マルコフ決定過程 (Partially Observable Markov Decision Process, POMDP) に帰着できるが,一般には決定不能 (UNDECIDABLE) 問題であり,効率的な解法は未だ見つかっていない.
今年度は,繰り返し囚人のジレンマにおいて,プレイヤが行動を取り違えるとき,無限集団上のダイナミクスのもとでどんな戦略が生き残るかを吟味した.昨年度,私的観測が戦略空間としては行動の取り違えの特殊ケースであることを明らかになったため,進化ゲームの文脈でよく研究されている行動の取り違えとの違いを明確にすることを目的とする.ここで,従来よく使われる戦略表現である一期記憶戦略では,有名なトリガー戦略,一度でも裏切りを観測したら二度と協力しない,を正しく表現できない.つまり,裏切りを観測したあとに2人が同時に行動を取り違えると,協力に戻ってしまう.そこで,状態数2以下の有限状態機械からなる戦略空間上に突然変異付きレプリケータダイナミクスを構築し,その帰結を吟味した.その結果,協力を維持する仕組みが利得構造などのゲームパラメータに応じてどのように変化していくかを明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
進化ゲーム理論のダイナミクスを用いた私的観測研究は一定の成果を得た.とくに私的観測の一つであるほぼ完全観測を扱った論文が情報処理学会論文誌に再録された.別の観測構造であるほぼ公的観測を扱った論文は情報科学技術フォーラムの優秀論文賞を受賞した.
さらに昨年度に開発した方策勾配法ベースの均衡計算アルゴリズムに関する研究は船井ベストペーパー賞を受賞した.
以上より,特筆した成果を上げたと言える.次に,今年度から取り組んだ行動の取り違えについては,計算・解析手法に目処がたっており,私的観測の結果と統合した論文を執筆できる見込みがついている.
|
Strategy for Future Research Activity |
行動の取り違えと私的観測の結果を統合した内容の論文を執筆する.
一方で,方策勾配法をもとにした研究から,有名な均衡計算アルゴリズムである正則化先導者追従 (Follow the Regularized Leader, FTRL) を改良できることがわかった.これについては二人零和ゲームでの均衡収束を証明し,繰り返し囚人のジレンマのケースに拡張する.
|
Causes of Carryover |
コロナ禍のため,旅費を中心に執行が難しかったため.
|