2021 Fiscal Year Research-status Report
不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良
Project/Area Number |
20K12124
|
Research Institution | Kochi University of Technology |
Principal Investigator |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム |
Outline of Annual Research Achievements |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は,(1) 確率的一人ゲーム「2048」に対する深層強化学習,(2) 不完全情報ゲーム「ガイスター」における強化学習の応用,(3) 「2048」を二人ゲーム化した「対戦型2048」におけるAlphaGo手法の評価の3点について主に研究を進めた. (1) 確率的一人ゲーム「2048」に対する深層強化学習:深層強化学習による「2048」のバリューネットワークの学習について,昨年度に一定の成果を得た.本年度は,自然言語処理分野で成果を挙げている手法を適用することによるバリューネットワークの改良と,得られたニューラルネットワークを用いたモンテカルロ木探索アルゴリズムの性能評価についてそれぞれ研究を行った.これらの研究成果について国際会議に投稿している(査読中). (2) 不完全情報ゲーム「ガイスター」における強化学習の応用:不完全情報ゲーム「ガイスター」と盤面を小さくしたゲームに対して強化学習を適用することにより,ゲームの特徴を捉えることができることを示した.本成果は国際会議 IEEE Conference on Games にて発表した. (3) 「対戦型2048」におけるAlphaGo手法の評価:昨年度の成果をさらに発展させて,二人ゲーム「対戦型2048」におけるAlphaGo手法の評価について研究を進めた.それにより,以前に行った線形な評価関数を用いた場合とニューラルネットワークによる評価関数を用いた場合とで,学習の進み方や結果に異なる傾向が見られることを明らかにした.本成果は,国内シンポジウムにて発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議が延期・中止されたこともあり,一部の成果については次年度に投稿・発表することを目指している.
|
Strategy for Future Research Activity |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) AlphaGo における PUCT アルゴリズムの性能評価 (2) 確率的一人ゲーム「2048」に対するニューラルネットワーク (3) 不完全情報ゲーム「ガイスター」のプレイヤへの学習の適用
|
Causes of Carryover |
新型コロナウイルスの影響により,国内会議・国際会議が延期・中止・オンライン開催となったため.次年度に,当該会議を含む学会へ参加することで使用する予定である.
|
Research Products
(3 results)