2022 年度実施状況報告書

機械学習を用いた大将棋類の質的類似度の研究

研究課題

研究課題/領域番号	19K12719
研究機関	県立広島大学
研究代表者	佐々木宣介県立広島大学, 経営情報学部, 准教授 (20326424)
研究期間 (年度)	2019-04-01 – 2024-03-31
キーワード	大将棋類 / 自動プレイ / 中将棋 / 機械学習
研究実績の概要	本研究で対象としている大きな盤と多数の駒でプレイされる大将棋類のルール評価について、これまでは主に「中将棋」という変種を対象に行っていた計算機実験の信頼性向上のため、機械学習手法の改良を目指し、機械学習手法の調査および計算機実験プログラムの開発と評価を目指している。過去に行ってきた大将棋類のゲームのデータを採取する自動プレイ実験の実施にあたり、中将棋については、機械学習手法の一種であるTD（Temporal Difference）学習法によって駒の価値のみを学習するプログラムを作成して駒価値を学習し、駒価値のみを評価関数とする思考アルゴリズムのプログラムを用いた計算機実験を行ってきた。この自動プレイ実験で得られるデータは、ランダムに近い弱いプログラムであった。そこで、より信頼性の高いデータを得るために、本申請においては、さらに強い大将棋類の思考プログラムを実現するために、機械学習手法の改善を図ることとしている。今年度は、前年度に引き続き、通常の将棋プログラムの機械学習において近年成果を上げている学習手法の調査および、その手法を参考にした各種将棋変種のプログラムの開発を実施してきた。本研究当初の計画では大きな盤の変種を中心に実施する予定であった。しかし、本研究で用いる機械学習の手法の比較を行うにあたり、並行して、過去の研究で評価した小さい盤の将棋類に対する実験結果についても、あらためて学習方法の改善とルールの評価を同時に行うこととした。そのため、プログラム開発と評価に大きな時間を要している状況である。特に大将棋類については、通常の将棋よりも大きな盤面と多数の駒を用いているため、機械学習の実験実施や、その後の計算機実験の実施において一定の時間が必要で、現時点では特に大将棋類の実験が、まだ機械学習プログラムの開発と、その性能評価の段階となっている。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究の研究対象としている大きな盤と多数の駒でプレイされる複数の大将棋類について、「中将棋」という変種を中心に、機械学習および自動プレイ実験を行うプログラム開発を中心に進めているが、現時点では、まだその成果は十分とは言えない段階である。計算機実験用プログラム開発に要する時間の他、計算機実験の実施には一定の時間が必要であることから、適用した強化学習手法の学習結果の性能評価および、プログラムの改善等に当初の予定よりも多くの時間がかかっている。大将棋類は大きな盤と多数の駒でプレイされるため、通常の将棋プログラムよりも計算機実験に多くの時間を要することもその要因である。そのため、現時点ではまだ中将棋の強化学習を行うプログラム開発とその性能評価を継続している段階となっており、学習後に中将棋のゲームデータを採取してルール評価の実施、中将棋以外の種類の大将棋類への機械学習手法の適用等の段階には、まだ至っていない状況である。さらに、これまでに過去に計算機実験を行っている通常のサイズの将棋類についても、あらためて学習方法の改善とルールの評価を同時に行うこととしたこととしたため、予定よりも多くの時間を要している。現在、複数のタイプの学習手法の性能を確かめるため、通常の将棋プログラムで主流となっているNNUE評価関数を利用する手法、Deep Learningを利用する手法のそれぞれ評価を行うこととし、実験を進めている。
今後の研究の推進方策	これまでと同様に計算機実験のプログラム開発と評価、各変種のルールの評価を継続する。本研究で対象とする大将棋類の変種の中では、「中将棋」の機械学習を行うプログラムの開発と評価を優先的に実施していく。それを通じて大将棋類でも有効に動作すると考えられる機械学習手法について、検討および実験評価を行うこととする。その結果を踏まえて他の大将棋類における実験を行っていく。さらに、大将棋類における実験評価と並行して、過去の研究で実施していたような小将棋類の変種に対しての実験も行っていくこととする。適用する学習手法としては、現在、通常の将棋プログラムで主に利用されている2種の学習手法である、NNUE評価関数を利用する手法、Deep Learningを利用する手法、の両方について実験を行っていくこととする。これらの実験を通じて、各種将棋に対して機械学習を有効に動作させる手法の確認を行い、その後、自動プレイ実験による中将棋のゲームデータの採取を行い、本研究の最終目標である、ゲームのルール評価を行っていく。前述のように中将棋における実験を先行するが、それ以外の大将棋類におけるプログラム開発・実験、通常の将棋における実験を合わせておこない、その成果をまとめていく予定である。
次年度使用額が生じた理由	新型コロナウイルスの影響により、学会出張等の支出はなかった。また、高速に計算を行う計算機については、前年度までに購入していた機材を用いているため、大きな支出はなかった。一定の金額については、計算機の周辺機器の購入費用として使用した。次年度使用額については、計算機の周辺機器の購入費用、論文投稿・掲載費用として使用する予定である。