Project/Area Number |
19K12719
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Prefectural University of Hiroshima |
Principal Investigator |
佐々木 宣介 県立広島大学, 経営情報学部, 准教授 (20326424)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 大将棋類 / 自動プレイ / 中将棋 / 機械学習 / 大将棋 |
Outline of Research at the Start |
本研究は、将棋の変種、特に「中将棋」・「大将棋」と呼ばれる大きな盤で多数の駒を用いてプレイされる変種において、コンピュータプログラムによる自動プレイで大量のゲームのデータを採取・比較し、これらの変種の持つ各種ルール(特に現代将棋に含まれていない特殊ルール)がゲームの性質にどのような影響を与えているか評価を行うものである。この手法により、既にプレイヤの存在しない歴史的変種間でも比較可能である。本申請では、これまでに大将棋類に対して行ってきた実験データの信頼性を向上させるため、機械学習の手法の改善をはかり、一定の強さのプログラムを作成して、ゲームデータの採取・評価を行う。
|
Outline of Annual Research Achievements |
本研究で対象としている大きな盤と多数の駒でプレイされる大将棋類のルール評価について、これまでは主に「中将棋」という変種を対象に行っていた計算機実験の信頼性向上のため、機械学習手法の改良を目指し、機械学習手法の調査および計算機実験プログラムの開発と評価を目指している。 過去に行ってきた大将棋類のゲームのデータを採取する自動プレイ実験の実施にあたり、中将棋については、機械学習手法の一種であるTD(Temporal Difference)学習法によって駒の価値のみを学習するプログラムを作成して駒価値を学習し、駒価値のみを評価関数とする思考アルゴリズムのプログラムを用いた計算機実験を行ってきた。この自動プレイ実験で得られるデータは、ランダムに近い弱いプログラムであった。そこで、より信頼性の高いデータを得るために、本申請においては、さらに強い大将棋類の思考プログラムを実現するために、機械学習手法の改善を図ることとしている。 今年度は、前年度に引き続き、通常の将棋プログラムの機械学習において近年成果を上げている学習手法の調査および、その手法を参考にした各種将棋変種のプログラムの開発を実施してきた。本研究当初の計画では大きな盤の変種を中心に実施する予定であった。しかし、本研究で用いる機械学習の手法の比較を行うにあたり、並行して、過去の研究で評価した小さい盤の将棋類に対する実験結果についても、あらためて学習方法の改善とルールの評価を同時に行うこととした。そのため、プログラム開発と評価に大きな時間を要している状況である。特に大将棋類については、通常の将棋よりも大きな盤面と多数の駒を用いているため、機械学習の実験実施や、その後の計算機実験の実施において一定の時間が必要で、現時点では特に大将棋類の実験が、まだ機械学習プログラムの開発と、その性能評価の段階となっている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の研究対象としている大きな盤と多数の駒でプレイされる複数の大将棋類について、「中将棋」という変種を中心に、機械学習および自動プレイ実験を行うプログラム開発を中心に進めているが、現時点では、まだその成果は十分とは言えない段階である。計算機実験用プログラム開発に要する時間の他、計算機実験の実施には一定の時間が必要であることから、適用した強化学習手法の学習結果の性能評価および、プログラムの改善等に当初の予定よりも多くの時間がかかっている。大将棋類は大きな盤と多数の駒でプレイされるため、通常の将棋プログラムよりも計算機実験に多くの時間を要することもその要因である。そのため、現時点ではまだ中将棋の強化学習を行うプログラム開発とその性能評価を継続している段階となっており、学習後に中将棋のゲームデータを採取してルール評価の実施、中将棋以外の種類の大将棋類への機械学習手法の適用等の段階には、まだ至っていない状況である。さらに、これまでに過去に計算機実験を行っている通常のサイズの将棋類についても、あらためて学習方法の改善とルールの評価を同時に行うこととしたこととしたため、予定よりも多くの時間を要している。 現在、複数のタイプの学習手法の性能を確かめるため、通常の将棋プログラムで主流となっているNNUE評価関数を利用する手法、Deep Learningを利用する手法のそれぞれ評価を行うこととし、実験を進めている。
|
Strategy for Future Research Activity |
これまでと同様に計算機実験のプログラム開発と評価、各変種のルールの評価を継続する。本研究で対象とする大将棋類の変種の中では、「中将棋」の機械学習を行うプログラムの開発と評価を優先的に実施していく。それを通じて大将棋類でも有効に動作すると考えられる機械学習手法について、検討および実験評価を行うこととする。その結果を踏まえて他の大将棋類における実験を行っていく。さらに、大将棋類における実験評価と並行して、過去の研究で実施していたような小将棋類の変種に対しての実験も行っていくこととする。適用する学習手法としては、現在、通常の将棋プログラムで主に利用されている2種の学習手法である、NNUE評価関数を利用する手法、Deep Learningを利用する手法、の両方について実験を行っていくこととする。 これらの実験を通じて、各種将棋に対して機械学習を有効に動作させる手法の確認を行い、その後、自動プレイ実験による中将棋のゲームデータの採取を行い、本研究の最終目標である、ゲームのルール評価を行っていく。前述のように中将棋における実験を先行するが、それ以外の大将棋類におけるプログラム開発・実験、通常の将棋における実験を合わせておこない、その成果をまとめていく予定である。
|