2021 年度実施状況報告書

将棋人工知能に関するディープマインド社の大規模実験とその知識獲得過程の検証

研究課題

研究課題/領域番号	20K12120
研究機関	電気通信大学
研究代表者	保木邦仁電気通信大学, 大学院情報理工学研究科, 准教授 (00436081)
研究分担者	伊藤毅志電気通信大学, 大学院情報理工学研究科, 准教授 (40262373)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	ゲーム人工知能
研究実績の概要	Silver らは 2019 年、囲碁・将棋などの知識を自己対局形式により獲得する人工知能プレイヤの強化学習アルゴリズム AlphaZero とその実験結果をサイエンス誌で発表した。本研究では、この先行研究の将棋における大規模実験の追試を市場に出回っているハードウエアを用いて行い、強化学習過程や生成された人工知能の性能を観測し、AlphaZero が将棋知識を獲得する過程を分析する。申請者は追実験を行うため、グラフィックス・プロセッシング・ユニット (GPU) を活用した自己対局生成の計算効率を追求した。NVIDIA 社の一個15万円程度の GPU (GeForce RTX 2080) を用いて、日産１万局程度の効率を達成した。現在申請者が参加している追実験のプロジェクトでは、市販ハードウエアのみを用いて構築された追実装は、AlphaZero の将棋の実験に準じた性能を獲得している (山下宏、保木邦仁、小林祐樹、AobaZero の高速化と現在の状況、コンピュータ将棋協会誌、vol. 32, pp. 72-86, 2021)。申請者は現在、計算機実験を行う環境整備に取り組み、性能評価を行うための実装について検討中である。
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由ハードウエアの一部 (GPU) のみを購入・交換し、今有る計算機の大部分を流用して計算実験環境を整える予定であったが、GPU の調達が予定通りに進まず、計画が遅れている。NVIDIA 社が販売する GPU のラインナップが変わり、市販で出回っている拡張バスの規格が変わったことなどの事情がある。当初の計画にはなかった GPU を搭載する計算機確保は、今年度ようやくめどが立った。繰り越した予算で、2022年度には計算環境を整える。
今後の研究の推進方策	計算機実験を本格的に始動させる。また、2018年以降に公開された及びされるであろう最新の将棋人工知能と対局実験を行い、AlphaZeroの強化学習アルゴリズムが生成する将棋人工知能の性能を計測する。そして、既知の将棋の手筋や好形が出現したり消滅したりする様子を観測する。さらに、本研究の総括を行い、学術論文誌などで研究成果を公開する。
次年度使用額が生じた理由	実験機器の導入に当初の予定より時間がかかったため、次年度使用額が生じた。