研究課題/領域番号 |
20K12124
|
研究機関 | 高知工科大学 |
研究代表者 |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 非対称二人ゲーム |
研究実績の概要 |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は主に,(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良,(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価,(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較,の3点について研究を進めた. (1) これまでに,局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた.本研究項目では,大域的特徴を与えるネットワークを追加したネットワークを設計し,スコアが改善することを示した.本成果は,国際会議 IEEE CoG 2022 にて発表した. (2) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し,評価を行った.その結果,モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること,モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た.前者は国際会議 TAAI 2022に,後者は国内ワークショップで発表した. (3) 非対称二人ゲーム「対戦型2048」に対し,Nタプルネットワーク/ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し,相互対戦により評価を行った.その結果,「2048」において優れるNタプルネットワークが「対戦型2048」では劣る,という興味深い結果を得た.国内ワークショップ,国内研究会にて発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議への参加が難しかったことを受けて,一部の成果については次年度に投稿・発表することを目指している.
|
今後の研究の推進方策 |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワークと学習方法,(3) 不完全情報ゲーム「DouDizhu」のプレイヤへの学習の適用
|
次年度使用額が生じた理由 |
新型コロナウイルス感染拡大に伴い,当初予定して国内・国外の研究者を訪問しての研究討論や国際会議参加ができなかったため. 状況が改善していることを受け,次年度に訪問・参加を行うために使用する予定である.
|