現実世界の大規模な探索問題は全解探索は困難であり、一部を選択的に探索するアルゴリズムが用いられる。ゲーム木の探索はこのような問題の一例であり、モンテカルロ木探索が有効とされているが、将棋など「細い正解の一本道をたどらねばならない」ような問題領域においては収束が遅く、適用が難しい。我々は、乱数を組み込んだ探索を利用するアルゴリズムを提案し、将棋での有効性を確認したが、単一の評価関数を用いることによる効率の悪さも明らかになった。本研究では、(1)性質の異なる複数の評価手法を活用できるモンテカルロ木探索手法を検討し、(2)将棋を題材に実用的なアプリケーションとして実装を行い、(3)大規模分散計算環境でその有効性を評価する、ことを目指す。 本年度は、複数の評価手法を利用可能な分散モンテカルロ木探索アルゴリズムを設計し、実用的な問題におけるアプリケーションとして、コンピュータ将棋プレイヤ「激指」を用いて分散計算アプリケーションの試験実装を行うとともに、その有効性を試験評価した。 また、提案手法の応用範囲を拡大するため、交渉ゲームやRPGなど、より複雑な状況を扱う必要がある困難な問題に関する研究を行った。さらに、様々な実用的探索アプリケーションにおいて近年有望な手法とされている強化学習に関する研究を行った。これらの研究成果は、提案手法の基本設計や詳細設計、実装などで、実社会問題への応用性を高めるために活用していく。
|