The evaluation of the qualitative similarity of Dai-Shogi variants by using Machine Learning techniques

Research Project

Project/Area Number	19K12719
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90020:Library and information science, humanistic and social informatics-related
Research Institution	Prefectural University of Hiroshima
Principal Investigator	佐々木宣介県立広島大学, 経営情報学部, 准教授 (20326424)
Project Period (FY)	2019-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000) Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2019: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	大将棋類 / 自動プレイ / 中将棋 / 機械学習 / 大将棋
Outline of Research at the Start	本研究は、将棋の変種、特に「中将棋」・「大将棋」と呼ばれる大きな盤で多数の駒を用いてプレイされる変種において、コンピュータプログラムによる自動プレイで大量のゲームのデータを採取・比較し、これらの変種の持つ各種ルール（特に現代将棋に含まれていない特殊ルール）がゲームの性質にどのような影響を与えているか評価を行うものである。この手法により、既にプレイヤの存在しない歴史的変種間でも比較可能である。本申請では、これまでに大将棋類に対して行ってきた実験データの信頼性を向上させるため、機械学習の手法の改善をはかり、一定の強さのプログラムを作成して、ゲームデータの採取・評価を行う。
Outline of Annual Research Achievements	本研究で対象としている大きな盤と多数の駒でプレイされる大将棋類のルール評価について、これまでは主に「中将棋」という変種を対象に行っていた計算機実験の信頼性向上のため、機械学習手法の改良を目指し、機械学習手法の調査および計算機実験プログラムの開発と評価を目指している。過去に行ってきた大将棋類のゲームのデータを採取する自動プレイ実験の実施にあたり、中将棋については、機械学習手法の一種であるTD（Temporal Difference）学習法によって駒の価値のみを学習するプログラムを作成して駒価値を学習し、駒価値のみを評価関数とする思考アルゴリズムのプログラムを用いた計算機実験を行ってきた。この自動プレイ実験で得られるデータは、ランダムに近い弱いプログラムであった。そこで、より信頼性の高いデータを得るために、本申請においては、さらに強い大将棋類の思考プログラムを実現するために、機械学習手法の改善を図ることとしている。本研究当初の計画では大きな盤の変種を中心に計算機実験のプログラム開発・評価を実施する予定であった。しかし、研究遂行にあたり、本研究で用いる機械学習の手法の比較及び、同一条件でのデータ採取を行うため、並行して、過去の研究で評価した小さい盤の将棋類に対する実験結果についても、あらためて学習方法の改善とルールの評価を同時に行うこととした。そこで、追加の計画として、小さい盤の将棋類に関するプログラム開発も同様に行っている。そのため、プログラム開発と評価に大きな時間を要している状況である。特に大将棋類については、通常の将棋よりも大きな盤面と多数の駒を用いているため、機械学習の実験実施や、その後の計算機実験の実施において多くの時間が必要で、現時点では機械学習プログラムの開発とその性能評価の段階にとどまっている。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 本研究の研究対象としている大きな盤と多数の駒でプレイされる複数の大将棋類について、「中将棋」という変種を中心に、機械学習および自動プレイ実験を行うプログラム開発を中心に進めているが、現時点では、まだその成果は十分とは言えない段階である。計算機実験用プログラム開発に要する時間の他、計算機実験の実施には一定の時間が必要であることから、適用した強化学習手法の学習結果の性能評価および、プログラムの改善等に当初の予定よりも多くの時間がかかっている。また、過去に計算機実験を行っている通常のサイズの将棋類についても、あらためて学習方法の改善とルールの評価を同時に行うこととしたこととした。開発予定のシステムが増えたこともあり、プログラムの開発と評価に予定よりも多くの時間を要している。さらに、大将棋類は大きな盤と多数の駒でプレイされるため、通常の将棋プログラムよりも計算機実験に多くの時間を要することもその要因である。そのため、現時点ではまだ大将棋類については、中将棋の強化学習を行うプログラム開発とその性能評価を継続している段階となっており、学習後に中将棋のゲームデータを採取してルール評価の実施、中将棋以外の種類の大将棋類への機械学習手法の適用等の段階には、まだ至っていない状況である。現在、複数のタイプの学習手法の性能を確かめるため、通常の将棋プログラムで主流となっているNNUE評価関数を利用する手法、Deep Learningを利用する手法のそれぞれ評価を行うこととし、実験を進めている。
Strategy for Future Research Activity	これまでと同様に計算機実験のプログラム開発と評価、各変種のルールの評価を継続する。また、大将棋類における実験評価と並行して、過去の研究で実施していたような小将棋類の変種に対しての実験も行っていくこととする。本研究の主要な対象である大将棋類の変種の中では、「中将棋」の機械学習を行うプログラムの開発と評価を優先的に実施していく。それを通じて大将棋類でも有効に動作すると考えられる機械学習手法について、検討および実験評価を行うこととする。その結果を踏まえて他の大将棋類における実験を行っていく。適用する学習手法としては、通常の将棋プログラムで主に利用されている2種の学習手法である、NNUE評価関数を利用する手法とDeep Learningを利用する手法、の両方について実験を行って、開発・性能等の評価を行い、計算機実験に適した方法を採用して各変種に適用していく予定である。これらの実験を通じて、各種将棋に対して機械学習を有効に動作させる手法の確認を行い、その後、自動プレイ実験により、小さい盤の将棋から大きい盤の将棋、特に中将棋のゲームデータの採取を行い、本研究の最終目標である、ゲームのルール評価を行っていく。前述のように、大きい盤の将棋としては、中将棋における実験を先行するが、それ以外の大将棋類におけるプログラム開発・実験、通常の将棋における実験を合わせておこない、その成果をまとめていく予定である。

Report

(5 results)