研究課題/領域番号 |
20K12124
|
研究機関 | 高知工科大学 |
研究代表者 |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム |
研究実績の概要 |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は,(1) AlphaGo における PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対する強化学習,(3) 不完全情報ゲーム「ガイスター」のプレイヤ,の3点について主に研究を進めた. (1) AlphaGo における PUCT アルゴリズムの性能評価:AlphaGo では,モンテカルロ木探索アルゴリズムとして,(優れた) 評価関数を利用する PUCT が用いられている.そのアルゴリズムにおける評価関数の影響について,より詳しく手を評価できるオセロを題材として,ニューラルネットワーク評価関数を用いた場合と,線形な評価関数を用いた場合とで実験により考察を行った.前者については,国内の研究会にて発表した. (2) 確率的一人ゲーム「2048」に対する強化学習:これまでゲーム「2048」に対して,線形な評価関数を用いた強化学習が研究の主流であった.研究代表者らは,「2048」をうまくプレイするニューラルネットワークを教師あり学習により実現できることを示している.本年度は,それを拡張して,強化学習により作成したニューラルネットワークのバリューネットワークにより優れたプレイヤが実現できることを示した.本件は,英文論文誌に再録された.また,「2048」を二人ゲームに拡張した「対戦型2048」に対しても同様の手法を適用し,一定の成果を得た.本件は,国内学会にて発表した. (3) 不完全情報ゲーム「ガイスター」のプレイヤ:次年度以降に取り組む課題として,不完全情報ゲーム「ガイスター」についてそのプレイヤ作成を複数の視点から取り組んだ.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議が延期・中止されたこともあり,一部の成果については次年度に投稿・発表することを目指している.
|
今後の研究の推進方策 |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) AlphaGo における PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワーク,(3) 不完全情報ゲーム「ガイスター」のプレイヤへの学習の適用
|
次年度使用額が生じた理由 |
本年度に出版されることを見込んでいた論文の掲載が遅れたため,その分の掲載料を次年度に支払う予定である.また,新型コロナウイルスの影響により,国内会議・国際会議が延期・中止・オンライン開催となったため.次年度に,当該会議を含む学会へ参加することで使用する予定である.
|