2023 Fiscal Year Annual Research Report
不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良
Project/Area Number |
20K12124
|
Research Institution | Kochi University of Technology |
Principal Investigator |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | AlphaGo / 深層強化学習 / ゲームAI / モンテカルロ木探索 |
Outline of Annual Research Achievements |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である.本年度は主に,(1) 確率的一人ゲーム「2048」への強化学習手法「Monte-Carlo Softmax 探索」の適用と評価,(2) 不完全情報ゲーム「Geister」への深層強化学習の適用による不完全性の影響の調査,(3) 多人数不完全情報ゲーム「DouDizhu」への深層強化学習の適用の3点について研究を進めた. (1) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する深層強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用する上での課題を明らかにした.具体的には,値の過大評価を抑えるDouble Q-Learningの手法を応用するアルゴリズムの適用と評価を行い,その成果を国内研究会で発表した. (2) 前年度に引き続き,不完全情報ゲーム「Geister」への深層強化学習の適用することでAIエージェント開発し,得られたAIエージェントを用いることでゲームそのものの性質を解明するという課題に挑戦した.「Geister」のいくつかの変種に対して本手法を適用して評価した.この成果は国際論文誌に掲載された. (3) 多人数不完全情報ゲーム「DouDizhu」の,とくにそのbiddingフェーズについて,深層強化学習を適用して優れたAIエージェントを作成した.この成果を,国際会議にて発表した.
|