2021 Fiscal Year Annual Research Report
AlphaZero toward Theoretical Values and Optimal Plays of Perfect Information Games
Project/Area Number |
20K19946
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Keywords | AlphaZero / 最適戦略 / 理論値 / Tabular / ニューラルネットワーク / Chinese dark chess / EinStein wurfelt nicht! / NoGo |
Outline of Annual Research Achievements |
ゲームの解析(solve)は情報学の大きな目標の一つであり,本研究の主たる目的は,AlphaZero の枠組みを用いて,完全情報ゲームを解析(または補助)できるアルゴリズムにすることである.AlphaZero が人間よりも強いプレイヤを作れることはすでに示されているが,学習した戦略がどの程度最適に近いのか,および盤面評価値がどの程度正確なのか,については十分調べられていない. 令和2年度では lookup table を用いた AlphaZero の性能を調べた.対象となったゲームは完全解析可能であり,特性や規模の異なるものを含んだ.具体的に,不確定要素のない決定的なゲームにおいては,様々なボードサイズの NoGo(囲碁変種)を,不確定要素を含む確率的なゲームにおいては,2×4 Chinese dark chess(CDC)の最も単純な駒セットの PPPP と,EinStein wurfelt nicht!(EWN)のボードサイズ 3×3・初期3駒ずつ(333)という変種を対象にした. 令和3年度では続いて,より複雑な 2×4 CDC の駒セットの KPPP と GGCC,および EWN334 と EWN343 を対象にして調べた.令和2年度と同様に,AlphaZero パラメータ設定により,学習した戦略と盤面評価への影響の調査が中心となった.分析したパラメータはモンテカルロ木探索の探索定数やシミュレーション回数,木節点の初期化などを含んだ.実験の結果から,最善手を学習できるパラメータ設定の範囲が広いことがわかった.そして,ゲームが複雑になると,適切なパラメータ設定の範囲が狭くなる傾向も見られた. 令和3年度では更に lookup table の代わりとして,完全解析が困難なゲームにも使えるニューラルネットワークを調べた.2×4 CDC の PPPP の実験から,ニューラルネットワークの結果は lookup table に似たような傾向があることがわかった.より複雑なゲームにおいても AlphaZero が最適戦略や理論値を学習できることを期待している.
|