2015 年度実施状況報告書

名人を超える将棋序盤アルゴリズムの開発

研究課題

研究課題/領域番号	24500192
研究機関	松江工業高等専門学校
研究代表者	橋本剛松江工業高等専門学校, 情報工学科, 准教授 (40420335)
研究期間 (年度)	2012-04-01 – 2017-03-31
キーワード	コンピュータ将棋 / 機械学習 / テトリス / Bonanza Method / Deep Learning
研究実績の概要	本研究ではコンピュータ将棋にプロ並みの良い「形」を評価させることを目指して、「乱数を用いる評価項目自動抽出法」を提案し、多くの駒位置からなる評価要素を乱数を使い自動で抽出することに成功し成果を収めた。だが、実用に向けては提案手法の探索時間削減への取り組みが必要となる。これは、駒組み合わせのデータがリストを用いた木構造に保存されており、評価値参照に非常に時間がかかるためである。また、木構造は差分計算に向いていないため、本質的に高速化に向いていない。昨年は高速化を目指して木構造ではない新しいデータ構造評価値参照の差分計算方法を考案し、その実装のため駒組み合わせ参照の新しい仕組みを提案した。今年度はこの実装に取り組み、実験を行った。改良を重ねてはいるが、実用的なレベルまで高速化するにはさらなる工夫が必要なことが分かった。近年 Deep Learning による学習が注目され、その技術を使ったコンピュータ囲碁プログラム alphaGOがイ・セドル九段に勝利し大きな話題となったが、コンピュータ将棋で Deep Learning による学習が実用化された報告はまだない。駒位置による評価へ応用が出来るのではと考え、研究を始めた。だが、画像処理や囲碁などで広く使われる多層畳み込みネットワークの手法は将棋のように微妙な違いが大きな差となるドメインでは使いづらいので、アタリゲームの完全自動学習で成功したDQN法に近い手法をまずは試していく。その前段階として、比較的簡単なルールでかつ微妙な差が大きな違いとなるテトリスを題材として Deep Learning を用いた強化学習に取り組んだ。まだ十分な学習回数による実験は行えていないが、ある程度情報を圧縮しないと良い性能が得られないことが分かった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由「乱数を用いる評価項目自動抽出法」の実用化に向けて、計算の高速化を目指してデータ構造を変えて実装を行っている。だが、まず技術的に実装が難しく、デバッグに予想より多くの時間を必要としており、当初の目標である実用化までには予想よりさらに工夫が必要であることが分かった。また、新しい技術である Deep Learning の導入を検討しており、まずはテトリスを題材として強化学習に取り組んでいる。
今後の研究の推進方策	引き続き「乱数を用いる評価項目自動抽出法」の実用化を進め、完成させて評価する。また、Deep Learning による学習の研究を進めていく。テトリスを使った強化学習を引き続き研究し、DQN 法に近い強化学習で人間を超えるレベルにまで性能を上げていく。GPU を使った並列計算が必要となるので、高性能なグラフィックボードとマシンを購入し、長時間の学習実験を繰り返し行う。また、将棋評価値の Deep Learning による学習も実用化を目指して開発を進めて行く。
次年度使用額が生じた理由	予定していた会議が所用で参加できなかったため
次年度使用額の使用計画	新たに Deep Learning の研究も行なっており、これには高性能なGPUが必要で、その購入に充てる。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 学習によるテトリスAIの実装と考察2016
- 著者名/発表者名
  青木勢馬，橋本剛
- 学会等名
  組合せゲーム・パズルプロジェクト第１１回研究集会
- 発表場所
  電気通信大学
- 年月日
  2016-03-07