本研究ではコンピュータ将棋にプロ級の良い「形」を評価させることを目指し、「乱数を用いる評価項目自動抽出法」を提案し、多くの駒位置からなる評価要素を乱数を使い自動で抽出することに成功し成果を収めた。また、プロ棋譜に現れる駒組み合わせをランダムに抽出したことにより、どのような組み合わせが多く現れるかのデータが明らかになった。組み合わせ上位は桂や香などを含む、初期配置と差があまりないものが多かった。組み合わせ中位には、矢倉や美濃囲いなど頻出する囲いに関する要素が多く見られる、などの知見が得られた。同様の手法で、他のゲームなどへの応用が期待できる。 コンピュータ将棋に関しては、提案手法の実用化に向けて探索時間削減への取り組みが必要となることがわかったので、新しいデータ構造を考案し、高速化を目指した取り組みを最終年度も行ったが、これまでの結果を上回る成果は残念ながら得られなかった。 評価項目を自動で得る事ができる手法として、ATARIのゲームやalphaGOで有名になった深層学習を用いる強化学習が近年注目されているので、最終年度にはテトリス、弾幕シューティングを題材に評価項目を与えない深層学習を用いた強化学習を行った。その結果、単純な強化学習では膨大な学習時間が必要で難しいが、学習対象を小さいものから大きいものへと変化させることでうまく学習が出来るというアイデアを提案し、実験によりその効果を確認できた。
|