2022 年度実施状況報告書

不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

研究課題

研究課題/領域番号	20K12124
研究機関	高知工科大学
研究代表者	松崎公紀高知工科大学, 情報学群, 教授 (30401243)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 非対称二人ゲーム
研究実績の概要	本研究は，AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし，それを改良することを目指す研究である．本年度は主に，(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良，(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価，(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較，の3点について研究を進めた． (1) これまでに，局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた．本研究項目では，大域的特徴を与えるネットワークを追加したネットワークを設計し，スコアが改善することを示した．本成果は，国際会議 IEEE CoG 2022 にて発表した． (2) AlphaGo 手法は，方策（ポリシー）と値（バリュー）の2つを同時に学習する強化学習手法である．それに対し，値（バリュー）のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し，評価を行った．その結果，モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること，モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た．前者は国際会議 TAAI 2022に，後者は国内ワークショップで発表した． (3) 非対称二人ゲーム「対戦型2048」に対し，Nタプルネットワーク／ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し，相互対戦により評価を行った．その結果，「2048」において優れるNタプルネットワークが「対戦型2048」では劣る，という興味深い結果を得た．国内ワークショップ，国内研究会にて発表した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初予定していた研究の進め方に従って取り組んできている．新型コロナウイルスの影響により国際会議への参加が難しかったことを受けて，一部の成果については次年度に投稿・発表することを目指している．
今後の研究の推進方策	次年度も，本年度の研究に引き続き，大きく3つの観点で研究を進める． (1) PUCT アルゴリズムの性能評価，(2) 確率的一人ゲーム「2048」に対するニューラルネットワークと学習方法，(3) 不完全情報ゲーム「DouDizhu」のプレイヤへの学習の適用
次年度使用額が生じた理由	新型コロナウイルス感染拡大に伴い，当初予定して国内・国外の研究者を訪問しての研究討論や国際会議参加ができなかったため．状況が改善していることを受け，次年度に訪問・参加を行うために使用する予定である．

研究成果
(9件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (8件) (うち国際学会 3件)

[雑誌論文] 不完全情報ゲーム「ガイスター」における相手駒色推定の有効性評価2022
- 著者名/発表者名
  竹内聖悟、栃川純平、松崎公紀
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 63 ページ: 787～795
- DOI
  10.20729/00217475
- 査読あり
[学会発表] 対戦型2048におけるニューラルネットワークプレイヤとNタプルネットワークプレイヤの性能比較2023
- 著者名/発表者名
  小田駿斗, 松崎公紀
- 学会等名
  情報処理学会第49回ゲーム情報学研究会
[学会発表] Enhancement of CNN-based 2048 Player with Monte-Carlo Tree Search2022
- 著者名/発表者名
  Shota Watanabe, Kiminori Matsuzaki
- 学会等名
  The 27th International Conference on Technologies and Applications of Artificial Intelligence (TAAI 2022)
- 国際学会
[学会発表] Three Player Otrio will be Strongly Solved2022
- 著者名/発表者名
  Runa Kubota, Lucien Troillet, Kiminori Matsuzaki
- 学会等名
  The 27th International Conference on Technologies and Applications of Artificial Intelligence (TAAI 2022)
- 国際学会
[学会発表] 2048へのMC Softmax探索の適用2022
- 著者名/発表者名
  渡邊翔太, 松崎公紀
- 学会等名
  情報処理学会ゲームプログラミングワークショップ2022
[学会発表] 対戦型2048 におけるニューラルネットワークプレイヤのαβ探索による強化2022
- 著者名/発表者名
  小田駿斗, 松崎公紀
- 学会等名
  情報処理学会ゲームプログラミングワークショップ2022
[学会発表] Improving DNN-based 2048 Players with Global Embedding2022
- 著者名/発表者名
  Weikai Wang, Kiminori Matsuzaki
- 学会等名
  IEEE International Conference on Games
- 国際学会
[学会発表] 探索結果の評価値に基づく手選択の工夫による相手に合わせた将棋AI2022
- 著者名/発表者名
  荒武佑磨, 松崎公紀, 竹内聖悟
- 学会等名
  情報処理学会第48回ゲーム情報学研究会
[学会発表] コンピュータ大貧民における手札推定の有効性についての再評価と考察2022
- 著者名/発表者名
  中山友里歌, 植田桂広, 鴨川翔太, 松崎公紀
- 学会等名
  情報処理学会第48回ゲーム情報学研究会

2022 年度 実施状況報告書

不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

研究代表者

松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 不完全情報ゲーム「ガイスター」における相手駒色推定の有効性評価2022

著者名/発表者名

雑誌名

DOI

[学会発表] 対戦型2048におけるニューラルネットワークプレイヤとNタプルネットワークプレイヤの性能比較2023

著者名/発表者名

学会等名

[学会発表] Enhancement of CNN-based 2048 Player with Monte-Carlo Tree Search2022

著者名/発表者名

学会等名

[学会発表] Three Player Otrio will be Strongly Solved2022

著者名/発表者名

学会等名

[学会発表] 2048へのMC Softmax探索の適用2022

著者名/発表者名

学会等名

[学会発表] 対戦型2048 におけるニューラルネットワークプレイヤのαβ探索による強化2022

著者名/発表者名

学会等名

[学会発表] Improving DNN-based 2048 Players with Global Embedding2022

著者名/発表者名

学会等名

[学会発表] 探索結果の評価値に基づく手選択の工夫による相手に合わせた将棋AI2022

著者名/発表者名

学会等名

[学会発表] コンピュータ大貧民における手札推定の有効性についての再評価と考察2022

著者名/発表者名

学会等名

2022 年度実施状況報告書

松崎公紀高知工科大学, 情報学群, 教授 (30401243)