2022 Fiscal Year Research-status Report
不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良
Project/Area Number |
20K12124
|
Research Institution | Kochi University of Technology |
Principal Investigator |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 非対称二人ゲーム |
Outline of Annual Research Achievements |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は主に,(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良,(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価,(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較,の3点について研究を進めた. (1) これまでに,局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた.本研究項目では,大域的特徴を与えるネットワークを追加したネットワークを設計し,スコアが改善することを示した.本成果は,国際会議 IEEE CoG 2022 にて発表した. (2) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し,評価を行った.その結果,モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること,モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た.前者は国際会議 TAAI 2022に,後者は国内ワークショップで発表した. (3) 非対称二人ゲーム「対戦型2048」に対し,Nタプルネットワーク/ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し,相互対戦により評価を行った.その結果,「2048」において優れるNタプルネットワークが「対戦型2048」では劣る,という興味深い結果を得た.国内ワークショップ,国内研究会にて発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議への参加が難しかったことを受けて,一部の成果については次年度に投稿・発表することを目指している.
|
Strategy for Future Research Activity |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワークと学習方法,(3) 不完全情報ゲーム「DouDizhu」のプレイヤへの学習の適用
|
Causes of Carryover |
新型コロナウイルス感染拡大に伴い,当初予定して国内・国外の研究者を訪問しての研究討論や国際会議参加ができなかったため. 状況が改善していることを受け,次年度に訪問・参加を行うために使用する予定である.
|
Research Products
(9 results)