2020 Fiscal Year Research-status Report
AlphaZero toward Theoretical Values and Optimal Plays of Perfect Information Games
Project/Area Number |
20K19946
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Keywords | AlphaZero / Tabular / 最適戦略 / 理論値 / Chinese dark chess / EinStein wurfelt nicht! / NoGo |
Outline of Annual Research Achievements |
ゲームの解析(solve)は情報学の大きな目標の一つであり,本研究の主たる目的は,AlphaZero の枠組みを用いて,完全情報ゲームを解析(または補助)できるアルゴリズムにすることである.AlphaZero が人間よりも強いプレイヤを作れることはすでに示されているが,学習した戦略がどの程度最適に近いのか,および盤面評価値がどの程度正確なのか,については十分調べられていない. 令和2年度ではまず,完全解析可能なゲームを対象に,lookup table を用いた AlphaZero の性能評価を行い,最適戦略や理論値が学べる条件(ゲームの状態空間の複雑性,学習パラメータなど)を調べた.具体的に,特性や規模の異なる,2×4 Chinese dark chess (CDC),3×3 EinStein wurfelt nicht! (EWN),様々なボードサイズの NoGo,の三つのゲームに着目した.CDC と EWN は不確定要素を含む確率的なゲームであり,NoGo は囲碁変種であり不確定要素のない決定的なゲームである. AlphaZero はいくつかのパラメータがあって,パラメータ設定により,学習した戦略と盤面評価への影響を調べた.分析したパラメータはモンテカルロ木探索の探索定数,シミュレーション回数,木節点の初期化,Dirichlet noise の重みと分布分散度を含んだ.パラメータの適切な範囲を見つけるため,設定値の範囲は広く設計された.実験の結果から,最善手を学習できるパラメータ設定の範囲が広いことがわかった.Lookup table を用いた AlphaZero の,最善手学習に対する頑健性を示した.なお,最適戦略の正確な確率分布や盤面評価の理論値を学習するには,ゲームの状態空間が広すぎて探索するようなパラメータ設定はよくないこともわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
よくできた点について,実装した lookup table を用いた AlphaZero 枠組みは,各ゲームにとって共通の要素(木探索や自己対戦などのコード)ができており,別のゲームに取り替えることは大変ではない.新しい対象ゲームにおいて,そのゲームの動作(初期化やゲーム終了判定,プレイヤの行動など)と lookup table を実装したらすぐに実験できる. よくできなかった点については,エフォート管理をきちんとしていなかったと思う.授業の準備や学生の指導など,比較的一定時間内に終わらせなければならない仕事を優先し,研究のほうが後回しになってしまった.また,本研究に関する論文の執筆は予想されていたが,予想以上に時間がかかり,研究を進める時間も少なくなってしまった.
|
Strategy for Future Research Activity |
汎化を行わず lookup table を用いた AlphaZero の結果を踏まえ,次には汎化を行う特徴抽出モデルが AlphaZero 学習に与える影響を調べる.特徴抽出モデルについて,さまざまな構成やサイズのニューラルネットワークを考えている. 完全解析可能な小規模ゲームにおいて,各盤面の最適戦略や理論値がわかったため,ニューラルネットワークが学習した戦略や盤面評価値の正確さを検証できる.どのようなネットワーク構成やサイズを使えば,理論値や最適戦略との差がどの程度になるのかを明らかにすることを目指す.分析結果により,理論値や最適戦略にできるだけ収束するような手法を提案する.さらに学習した戦略や盤面評価値が盤面の解析に使われる手法も考案する.既存の解析手法の枝刈りや探索順序付けに用いることも考えている.完全解析が困難なゲームにも適用し,性能検証および改良を行う.
|
Research Products
(2 results)