2021 Fiscal Year Annual Research Report

AlphaZero toward Theoretical Values and Optimal Plays of Perfect Information Games

Research Project

Project/Area Number	20K19946
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
Project Period (FY)	2020-04-01 – 2022-03-31
Keywords	AlphaZero / 最適戦略 / 理論値 / Tabular / ニューラルネットワーク / Chinese dark chess / EinStein wurfelt nicht! / NoGo
Outline of Annual Research Achievements	ゲームの解析（solve）は情報学の大きな目標の一つであり，本研究の主たる目的は，AlphaZero の枠組みを用いて，完全情報ゲームを解析（または補助）できるアルゴリズムにすることである．AlphaZero が人間よりも強いプレイヤを作れることはすでに示されているが，学習した戦略がどの程度最適に近いのか，および盤面評価値がどの程度正確なのか，については十分調べられていない．令和２年度では lookup table を用いた AlphaZero の性能を調べた．対象となったゲームは完全解析可能であり，特性や規模の異なるものを含んだ．具体的に，不確定要素のない決定的なゲームにおいては，様々なボードサイズの NoGo（囲碁変種）を，不確定要素を含む確率的なゲームにおいては，2×4 Chinese dark chess（CDC）の最も単純な駒セットの PPPP と，EinStein wurfelt nicht!（EWN）のボードサイズ 3×3・初期3駒ずつ（333）という変種を対象にした．令和３年度では続いて，より複雑な 2×4 CDC の駒セットの KPPP と GGCC，および EWN334 と EWN343 を対象にして調べた．令和２年度と同様に，AlphaZero パラメータ設定により，学習した戦略と盤面評価への影響の調査が中心となった．分析したパラメータはモンテカルロ木探索の探索定数やシミュレーション回数，木節点の初期化などを含んだ．実験の結果から，最善手を学習できるパラメータ設定の範囲が広いことがわかった．そして，ゲームが複雑になると，適切なパラメータ設定の範囲が狭くなる傾向も見られた．令和３年度では更に lookup table の代わりとして，完全解析が困難なゲームにも使えるニューラルネットワークを調べた．2×4 CDC の PPPP の実験から，ニューラルネットワークの結果は lookup table に似たような傾向があることがわかった．より複雑なゲームにおいても AlphaZero が最適戦略や理論値を学習できることを期待している．

Research Products
(2 results)

All Int'l Joint Research (1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Int'l Joint Research] 国立陽明交通大学/中央研究院/国立台北大学(その他の国・地域　台湾)
- Country Name
  その他の国・地域
- Counterpart Institution
  国立陽明交通大学/中央研究院/国立台北大学
[Presentation] Graph Convolutional Networks for Turn-Based Strategy Games2022
- Author(s)
  Wanxiang Li, Houkuan He, Chu-Hsuan Hsueh, and Kokolo Ikeda
- Organizer
  The 14th International Conference on Agents and Artificial Intelligence
- Int'l Joint Research