研究課題/領域番号 |
20K19884
|
研究機関 | 山口大学 |
研究代表者 |
上田 仁彦 山口大学, 大学院創成科学研究科, 講師 (00826571)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | ゲーム理論 / 繰り返しゲーム / 強化学習 / 囚人のジレンマ / ゼロ行列式戦略 |
研究実績の概要 |
本年度はまず、繰り返しゲームにおいて強化学習で獲得される戦略の解析を行った。強化学習は、マルコフ決定過程においてエージェントが好ましい行動を取った場合に報酬を与えることで特定の環境に対する最適な行動を学習しようという機械学習の方法である。申請者は、無限回繰り返し囚人のジレンマゲームで2人のエージェントが交互に相手の記憶1戦略に対する最適な戦略を学習する場合に、どのような均衡点が実現されるかを理論的に調べた。その結果、両者が決定論的記憶1戦略を用いる場合、相互強化学習による均衡点を形成しうるのは、All-D戦略(常に裏切る)、Win-stay Lose-shift戦略、グリムトリガー戦略の3つだけであることがわかった。この相互強化学習均衡は、部分ゲーム完全均衡の解析において戦略の時間非依存部分のみで比較を行うような話となっている。 また、繰り返しゲームにおけるゼロ行列式戦略の拡張の研究も行った。プレイヤーの利得に一方的に線形関係式を課すゼロ行列式戦略は本来は記憶1戦略クラスに対してのみ定義されていたが、申請者はこれを記憶n戦略クラス(n>1)に対しても拡張することに成功した。記憶nゼロ行列式戦略はプレイヤーの利得の時間相関関数の間に一方的に線形関係式を課すような戦略となっている。具体例として繰り返し囚人のジレンマゲームにおける記憶2ゼロ行列式戦略をいくつか構成した。特に、記憶1ゼロ行列式戦略の1つであるしっぺ返し戦略の記憶2拡張をいくつか考え、記憶1のものよりも強くなりそうなものと弱くなりそうなものがあることがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は当初の計画になかったゲーム理論における強化学習の研究にも手を出した。これは、情報を利用するエージェントの取り扱いとして、強化学習を行うエージェントの振る舞いの解析が有用かもしれないと考えたためである。結果としては、繰り返し囚人のジレンマという基本的な例題において学習の行われ方に関する理論解析を十分に行うことができたと考える。 また、ゼロ行列式戦略の研究は、利得制御における重要な話題として昨年度から手を出しているが、こちらも記憶n戦略クラスへの拡張がうまくいった。これにより、本来記憶1ゼロ行列式戦略で行えた利得制御よりもかなり複雑な制御が可能となった。
|
今後の研究の推進方策 |
まず、強化学習に関する話題としては、本年度行った決定論的記憶1戦略クラスに関する解析をさらに広い戦略クラスに拡張することが今後の方向性として挙げられる。即ち、確率的な戦略や、記憶2戦略に対する解析を行うという方向性である。特に、探索範囲を記憶2戦略に広げる場合は、記憶1の場合に用いていたような力技での全探索が困難となるので、均衡点を絞り込む何らかの方法の考案が必要とされるであろう。また、両者が同時に強化学習を行う状況の解析や、相手の戦略よりも短い記憶長で学習を行う場合の解析なども興味深い。 また、ゼロ行列式戦略の研究に関しては、記憶nゼロ行列式戦略のうち、囚人のジレンマゲームなどの具体的な状況での有用な例の構成ができるかが問題であろう。記憶nゼロ行列式戦略の系統的な構成方法や存在条件、ナッシュ均衡との関係などもわかると面白い。
|
次年度使用額が生じた理由 |
当初は学生の出張費を支出しようと考えていたが、学生全員が就職などの理由で年度末の学会発表を行わなかったため、次年度使用額が生じた。2022年度はこれらを用いて高性能数値計算機を購入しようと考えている。
|