ゲームの解析(solve)は情報学の大きな目標の一つであり,本研究の主たる目的は,AlphaZero の枠組みを用いて,完全情報ゲームを解析(または補助)できるアルゴリズムにすることである.AlphaZero が人間よりも強いプレイヤを作れることはすでに示されているが,学習した戦略がどの程度最適に近いのか,および盤面評価値がどの程度正確なのか,については十分調べられていない. 令和2年度では lookup table を用いた AlphaZero の性能を調べた.対象となったゲームは完全解析可能であり,特性や規模の異なるものを含んだ.具体的に,不確定要素のない決定的なゲームにおいては,様々なボードサイズの NoGo(囲碁変種)を,不確定要素を含む確率的なゲームにおいては,2×4 Chinese dark chess(CDC)の最も単純な駒セットの PPPP と,EinStein wurfelt nicht!(EWN)のボードサイズ 3×3・初期3駒ずつ(333)という変種を対象にした. 令和3年度では続いて,より複雑な 2×4 CDC の駒セットの KPPP と GGCC,および EWN334 と EWN343 を対象にして調べた.令和2年度と同様に,AlphaZero パラメータ設定により,学習した戦略と盤面評価への影響の調査が中心となった.分析したパラメータはモンテカルロ木探索の探索定数やシミュレーション回数,木節点の初期化などを含んだ.実験の結果から,最善手を学習できるパラメータ設定の範囲が広いことがわかった.そして,ゲームが複雑になると,適切なパラメータ設定の範囲が狭くなる傾向も見られた. 令和3年度では更に lookup table の代わりとして,完全解析が困難なゲームにも使えるニューラルネットワークを調べた.2×4 CDC の PPPP の実験から,ニューラルネットワークの結果は lookup table に似たような傾向があることがわかった.より複雑なゲームにおいても AlphaZero が最適戦略や理論値を学習できることを期待している.
|