本研究は世界の将棋類とその変種において、計算機プログラムによる自動プレイを通じて大量の試合を行って取得したデータから各変種間の質的類似度の評価を行うこと及び、その実験を簡便に行うための自動化されたシステム構築を目的としている。 研究初年度である本年度は3つの目標を設定していた。 1点目は、本研究は、既にプレイヤのいない廃れた変種についても人間のプレイヤに近い信頼性の高いデータを得るため、自動プレイ実験に使用する思考プログラムの学習に強化学習の一手法であるTemporal Difference学習法を用いていることが大きな特徴の一つであるが、この学習手法の改良である。学習する要素数を増やす、プログラムで用いている先読み探索のアルゴリズムを改良する等の工夫を加えて計算機実験を行った結果、これまで一部の変種の計算機実験で見られた、学習の収束性があまり良くないという問題に対して改善が見られる等、一定の成果を得た。 2点目の目標としていた実験対象とする変種の拡大であるが、チェス(西洋将棋)についての計算機実験を行い、データの解析とこれまでに日本将棋の変種に対して行った実験結果との比較を行っている。また、象棋(中国将棋)や日本将棋の変種である中将棋に対する実験は現在進行中である。その他の変種についても実験を準備中である。 3点目の目標としていた、さまざまな変種に対してルールの定義から実験・評価までをある程度自動化した実験を可能とする自動実験システムの設計についてであるが、本年度は主に現時点で計算に使用しているプログラムコードの共通化を進め、一定の共通化を行った。今後は、新しく実験を行う変種について、ルールの定義を簡便に設定する機能の開発を行っていく予定である。 これらの成果については、現在発表のための準備を行っている。
|