2021 Fiscal Year Research-status Report

不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

Research Project

Project/Area Number	20K12124
Research Institution	Kochi University of Technology
Principal Investigator	松崎公紀高知工科大学, 情報学群, 教授 (30401243)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム
Outline of Annual Research Achievements	本研究は，AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし，それを改良することを目指す研究である．本年度は，(1) 確率的一人ゲーム「2048」に対する深層強化学習，(2) 不完全情報ゲーム「ガイスター」における強化学習の応用，(3) 「2048」を二人ゲーム化した「対戦型2048」におけるAlphaGo手法の評価の3点について主に研究を進めた． (1) 確率的一人ゲーム「2048」に対する深層強化学習：深層強化学習による「2048」のバリューネットワークの学習について，昨年度に一定の成果を得た．本年度は，自然言語処理分野で成果を挙げている手法を適用することによるバリューネットワークの改良と，得られたニューラルネットワークを用いたモンテカルロ木探索アルゴリズムの性能評価についてそれぞれ研究を行った．これらの研究成果について国際会議に投稿している（査読中）． (2) 不完全情報ゲーム「ガイスター」における強化学習の応用：不完全情報ゲーム「ガイスター」と盤面を小さくしたゲームに対して強化学習を適用することにより，ゲームの特徴を捉えることができることを示した．本成果は国際会議 IEEE Conference on Games にて発表した． (3) 「対戦型2048」におけるAlphaGo手法の評価：昨年度の成果をさらに発展させて，二人ゲーム「対戦型2048」におけるAlphaGo手法の評価について研究を進めた．それにより，以前に行った線形な評価関数を用いた場合とニューラルネットワークによる評価関数を用いた場合とで，学習の進み方や結果に異なる傾向が見られることを明らかにした．本成果は，国内シンポジウムにて発表した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初予定していた研究の進め方に従って取り組んできている．新型コロナウイルスの影響により国際会議が延期・中止されたこともあり，一部の成果については次年度に投稿・発表することを目指している．
Strategy for Future Research Activity	次年度も，本年度の研究に引き続き，大きく3つの観点で研究を進める． (1) AlphaGo における PUCT アルゴリズムの性能評価 (2) 確率的一人ゲーム「2048」に対するニューラルネットワーク (3) 不完全情報ゲーム「ガイスター」のプレイヤへの学習の適用
Causes of Carryover	新型コロナウイルスの影響により，国内会議・国際会議が延期・中止・オンライン開催となったため．次年度に，当該会議を含む学会へ参加することで使用する予定である．

Research Products
(3 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Developing Value Networks for Game 2048 with Reinforcement Learning2021
- Author(s)
  Matsuzaki Kiminori
- Journal Title
  
  Journal of Information Processing
  
  Volume: 29 Pages: 336～346
- DOI
  10.2197/ipsjjip.29.336
- Peer Reviewed / Open Access
[Presentation] 攻撃側が置くタイルの数を選択できる対戦型2048に対するニューラルネットワークプレイヤの学習2022
- Author(s)
  小田駿斗, 松崎公紀
- Organizer
  第63回プログラミング・シンポジウム
[Presentation] Analysing simplified Geister using DREAM2021
- Author(s)
  Lucien Troillet, Kiminori Matsuzaki
- Organizer
  3rd IEEE Conference on Games
- Int'l Joint Research

2021 Fiscal Year Research-status Report

不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

Principal Investigator

松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Developing Value Networks for Game 2048 with Reinforcement Learning2021

Author(s)

Journal Title

DOI

[Presentation] 攻撃側が置くタイルの数を選択できる対戦型2048に対するニューラルネットワークプレイヤの学習2022

Author(s)

Organizer

[Presentation] Analysing simplified Geister using DREAM2021

Author(s)

Organizer

松崎公紀高知工科大学, 情報学群, 教授 (30401243)