2021 年度実施状況報告書

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

研究課題

研究課題/領域番号	20K20752
研究機関	電気通信大学
研究代表者	岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
研究期間 (年度)	2020-07-30 – 2023-03-31
キーワード	ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム
研究実績の概要	本研究では，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え，そのゲームの帰結（均衡）を求める問題を扱う．これまで，私的観測下での，繰り返しゲームの広範的な解析は十分でなかった．この状況では，プレイヤは相手の行動を予測するため，自らのノイズを含む観測をもとに，相手の観測履歴を統計的に推論しなければならない．この推論対象となる観測履歴の数はゲームの繰り返し数に対して指数的に増加する．これは部分観測マルコフ決定過程 (Partially Observable Markov Decision Process, POMDP) に帰着できるが，一般には決定不能 (UNDECIDABLE) 問題であり，効率的な解法は未だ見つかっていない．今年度は，繰り返し囚人のジレンマにおいて，プレイヤが行動を取り違えるとき，無限集団上のダイナミクスのもとでどんな戦略が生き残るかを吟味した．昨年度，私的観測が戦略空間としては行動の取り違えの特殊ケースであることを明らかになったため，進化ゲームの文脈でよく研究されている行動の取り違えとの違いを明確にすることを目的とする．ここで，従来よく使われる戦略表現である一期記憶戦略では，有名なトリガー戦略，一度でも裏切りを観測したら二度と協力しない，を正しく表現できない．つまり，裏切りを観測したあとに2人が同時に行動を取り違えると，協力に戻ってしまう．そこで，状態数2以下の有限状態機械からなる戦略空間上に突然変異付きレプリケータダイナミクスを構築し，その帰結を吟味した．その結果，協力を維持する仕組みが利得構造などのゲームパラメータに応じてどのように変化していくかを明らかにした．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由進化ゲーム理論のダイナミクスを用いた私的観測研究は一定の成果を得た．とくに私的観測の一つであるほぼ完全観測を扱った論文が情報処理学会論文誌に再録された．別の観測構造であるほぼ公的観測を扱った論文は情報科学技術フォーラムの優秀論文賞を受賞した．さらに昨年度に開発した方策勾配法ベースの均衡計算アルゴリズムに関する研究は船井ベストペーパー賞を受賞した．以上より，特筆した成果を上げたと言える．次に，今年度から取り組んだ行動の取り違えについては，計算・解析手法に目処がたっており，私的観測の結果と統合した論文を執筆できる見込みがついている．
今後の研究の推進方策	行動の取り違えと私的観測の結果を統合した内容の論文を執筆する．一方で，方策勾配法をもとにした研究から，有名な均衡計算アルゴリズムである正則化先導者追従 (Follow the Regularized Leader, FTRL) を改良できることがわかった．これについては二人零和ゲームでの均衡収束を証明し，繰り返し囚人のジレンマのケースに拡張する．
次年度使用額が生じた理由	コロナ禍のため，旅費を中心に執行が難しかったため．

研究成果
(14件)

すべて 2022 2021 その他

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (12件) 備考 (1件)

[雑誌論文] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022
- 著者名/発表者名
  西野上和真、五十嵐瞭平、岩崎敦
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 1138～1148
- DOI
  10.20729/00217615
- 査読あり
[学会発表] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022
- 著者名/発表者名
  坂本充生
- 学会等名
  情報処理学会第84回全国大会
[学会発表] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022
- 著者名/発表者名
  五十嵐瞭平
- 学会等名
  情報処理学会第84回全国大会
[学会発表] クールノー競争におけるマルチエージェント強化学習に関する研究2022
- 著者名/発表者名
  豊島健太郎
- 学会等名
  情報処理学会第84回全国大会
[学会発表] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- 著者名/発表者名
  村井伸一郎
- 学会等名
  情報処理学会第84回全国大会
[学会発表] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- 著者名/発表者名
  坂本充生
- 学会等名
  第24回情報論的学習理論ワークショップ (IBIS2021)
[学会発表] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- 著者名/発表者名
  坂本充生
- 学会等名
  日本OR学会秋季研究発表会
[学会発表] ほぼ公的観測下の囚人のジレンマにおける協力のダイナミクス2021
- 著者名/発表者名
  五十嵐瞭平
- 学会等名
  日本OR学会秋季研究発表会
[学会発表] 見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究2021
- 著者名/発表者名
  坂本充生
- 学会等名
  第２０回情報科学技術フォーラム（選奨論文）
[学会発表] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- 著者名/発表者名
  五十嵐瞭平
- 学会等名
  第２０回情報科学技術フォーラム（選奨論文）
[学会発表] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- 著者名/発表者名
  五十嵐瞭平
- 学会等名
  人工知能学会全国大会
[学会発表] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究2021
- 著者名/発表者名
  坂本充生
- 学会等名
  人工知能学会全国大会
[学会発表] 反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定2021
- 著者名/発表者名
  島野雄貴
- 学会等名
  人工知能学会全国大会
[備考] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/

2021 年度 実施状況報告書

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

研究代表者

岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022

著者名/発表者名

雑誌名

DOI

[学会発表] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022

著者名/発表者名

学会等名

[学会発表] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022

著者名/発表者名

学会等名

[学会発表] クールノー競争におけるマルチエージェント強化学習に関する研究2022

著者名/発表者名

学会等名

[学会発表] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

著者名/発表者名

学会等名

[学会発表] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021

著者名/発表者名

学会等名

[学会発表] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021

著者名/発表者名

学会等名

[学会発表] ほぼ公的観測下の囚人のジレンマにおける協力のダイナミクス2021

著者名/発表者名

学会等名

[学会発表] 見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究2021

著者名/発表者名

学会等名

[学会発表] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021

著者名/発表者名

学会等名

[学会発表] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021

著者名/発表者名

学会等名

[学会発表] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究2021

著者名/発表者名

学会等名

[学会発表] 反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定2021

著者名/発表者名

学会等名

[備考] Computational Incentive Science

URL

2021 年度実施状況報告書

岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)