研究実績の概要 |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である.本年度は主に,(1) 確率的一人ゲーム「2048」への強化学習手法「Monte-Carlo Softmax 探索」の適用と評価,(2) 不完全情報ゲーム「Geister」への深層強化学習の適用による不完全性の影響の調査,(3) 多人数不完全情報ゲーム「DouDizhu」への深層強化学習の適用の3点について研究を進めた. (1) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する深層強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用する上での課題を明らかにした.具体的には,値の過大評価を抑えるDouble Q-Learningの手法を応用するアルゴリズムの適用と評価を行い,その成果を国内研究会で発表した. (2) 前年度に引き続き,不完全情報ゲーム「Geister」への深層強化学習の適用することでAIエージェント開発し,得られたAIエージェントを用いることでゲームそのものの性質を解明するという課題に挑戦した.「Geister」のいくつかの変種に対して本手法を適用して評価した.この成果は国際論文誌に掲載された. (3) 多人数不完全情報ゲーム「DouDizhu」の,とくにそのbiddingフェーズについて,深層強化学習を適用して優れたAIエージェントを作成した.この成果を,国際会議にて発表した.
|