2021 Fiscal Year Research-status Report

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

Research Project

Project/Area Number	20K20752
Research Institution	The University of Electro-Communications
Principal Investigator	岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)
Project Period (FY)	2020-07-30 – 2023-03-31
Keywords	ゲーム理論 / 繰り返しゲーム / 私的観測 / アルゴリズム
Outline of Annual Research Achievements	本研究では，不完全情報下における逐次的意思決定の分析手法を開拓することを目的とする．具体的には，私的観測というお互いの行動を正確に観測できない不完全観測下において繰り返し行われる意思決定を繰り返しゲーム理論の枠組みで考え，そのゲームの帰結（均衡）を求める問題を扱う．これまで，私的観測下での，繰り返しゲームの広範的な解析は十分でなかった．この状況では，プレイヤは相手の行動を予測するため，自らのノイズを含む観測をもとに，相手の観測履歴を統計的に推論しなければならない．この推論対象となる観測履歴の数はゲームの繰り返し数に対して指数的に増加する．これは部分観測マルコフ決定過程 (Partially Observable Markov Decision Process, POMDP) に帰着できるが，一般には決定不能 (UNDECIDABLE) 問題であり，効率的な解法は未だ見つかっていない．今年度は，繰り返し囚人のジレンマにおいて，プレイヤが行動を取り違えるとき，無限集団上のダイナミクスのもとでどんな戦略が生き残るかを吟味した．昨年度，私的観測が戦略空間としては行動の取り違えの特殊ケースであることを明らかになったため，進化ゲームの文脈でよく研究されている行動の取り違えとの違いを明確にすることを目的とする．ここで，従来よく使われる戦略表現である一期記憶戦略では，有名なトリガー戦略，一度でも裏切りを観測したら二度と協力しない，を正しく表現できない．つまり，裏切りを観測したあとに2人が同時に行動を取り違えると，協力に戻ってしまう．そこで，状態数2以下の有限状態機械からなる戦略空間上に突然変異付きレプリケータダイナミクスを構築し，その帰結を吟味した．その結果，協力を維持する仕組みが利得構造などのゲームパラメータに応じてどのように変化していくかを明らかにした．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 進化ゲーム理論のダイナミクスを用いた私的観測研究は一定の成果を得た．とくに私的観測の一つであるほぼ完全観測を扱った論文が情報処理学会論文誌に再録された．別の観測構造であるほぼ公的観測を扱った論文は情報科学技術フォーラムの優秀論文賞を受賞した．さらに昨年度に開発した方策勾配法ベースの均衡計算アルゴリズムに関する研究は船井ベストペーパー賞を受賞した．以上より，特筆した成果を上げたと言える．次に，今年度から取り組んだ行動の取り違えについては，計算・解析手法に目処がたっており，私的観測の結果と統合した論文を執筆できる見込みがついている．
Strategy for Future Research Activity	行動の取り違えと私的観測の結果を統合した内容の論文を執筆する．一方で，方策勾配法をもとにした研究から，有名な均衡計算アルゴリズムである正則化先導者追従 (Follow the Regularized Leader, FTRL) を改良できることがわかった．これについては二人零和ゲームでの均衡収束を証明し，繰り返し囚人のジレンマのケースに拡張する．
Causes of Carryover	コロナ禍のため，旅費を中心に執行が難しかったため．

Research Products
(14 results)

All 2022 2021 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (12 results) Remarks (1 results)

[Journal Article] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  西野上和真、五十嵐瞭平、岩崎敦
- Journal Title
  
  情報処理学会論文誌
  
  Volume: 63 Pages: 1138～1148
- DOI
  10.20729/00217615
- Peer Reviewed
[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022
- Author(s)
  坂本充生
- Organizer
  情報処理学会第84回全国大会
[Presentation] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022
- Author(s)
  五十嵐瞭平
- Organizer
  情報処理学会第84回全国大会
[Presentation] クールノー競争におけるマルチエージェント強化学習に関する研究2022
- Author(s)
  豊島健太郎
- Organizer
  情報処理学会第84回全国大会
[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022
- Author(s)
  村井伸一郎
- Organizer
  情報処理学会第84回全国大会
[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- Author(s)
  坂本充生
- Organizer
  第24回情報論的学習理論ワークショップ (IBIS2021)
[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021
- Author(s)
  坂本充生
- Organizer
  日本OR学会秋季研究発表会
[Presentation] ほぼ公的観測下の囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  日本OR学会秋季研究発表会
[Presentation] 見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究2021
- Author(s)
  坂本充生
- Organizer
  第２０回情報科学技術フォーラム（選奨論文）
[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  第２０回情報科学技術フォーラム（選奨論文）
[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021
- Author(s)
  五十嵐瞭平
- Organizer
  人工知能学会全国大会
[Presentation] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究2021
- Author(s)
  坂本充生
- Organizer
  人工知能学会全国大会
[Presentation] 反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定2021
- Author(s)
  島野雄貴
- Organizer
  人工知能学会全国大会
[Remarks] Computational Incentive Science
- URL
  https://sites.google.com/site/a2ciwasaki/

2021 Fiscal Year Research-status Report

不完全情報下での逐次的意思決定：部分観測マルコフ決定過程解法の探索

Principal Investigator

岩崎 敦 電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 私的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Journal Title

DOI

[Presentation] 二人零和ゲームにおける突然変異付きレプリケータダイナミクスを用いた学習アルゴリズムに関する研究2022

Author(s)

Organizer

[Presentation] ほぼ公的観測下の繰り返しプロジェクトゲームにおける協力のダイナミクス2022

Author(s)

Organizer

[Presentation] クールノー競争におけるマルチエージェント強化学習に関する研究2022

Author(s)

Organizer

[Presentation] 取り違えのある繰り返し囚人のジレンマにおける協力のダイナミクス2022

Author(s)

Organizer

[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021

Author(s)

Organizer

[Presentation] 見間違えのある繰り返しゲームのためのActor-Critic型強化学習2021

Author(s)

Organizer

[Presentation] ほぼ公的観測下の囚人のジレンマにおける協力のダイナミクス2021

Author(s)

Organizer

[Presentation] 見間違えのある繰り返し囚人のジレンマにおける方策勾配法に関する研究2021

Author(s)

Organizer

[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021

Author(s)

Organizer

[Presentation] ほぼ公的観測下の繰り返し囚人のジレンマにおける協力のダイナミクス2021

Author(s)

Organizer

[Presentation] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究2021

Author(s)

Organizer

[Presentation] 反実仮想後悔最小化によるアメリカンフットボールにおけるオフェンス戦略の均衡推定2021

Author(s)

Organizer

[Remarks] Computational Incentive Science

URL

岩崎敦電気通信大学, 大学院情報理工学研究科, 准教授 (30380679)