• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

不完全情報・確率的・多人数ゲームにおけるAlphaGo手法の評価と改良

Research Project

Project/Area Number 20K12124
Research InstitutionKochi University of Technology

Principal Investigator

松崎 公紀  高知工科大学, 情報学群, 教授 (30401243)

Project Period (FY) 2020-04-01 – 2023-03-31
KeywordsAlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム
Outline of Annual Research Achievements

本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である.
本年度は,(1) AlphaGo における PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対する強化学習,(3) 不完全情報ゲーム「ガイスター」のプレイヤ,の3点について主に研究を進めた.
(1) AlphaGo における PUCT アルゴリズムの性能評価:AlphaGo では,モンテカルロ木探索アルゴリズムとして,(優れた) 評価関数を利用する PUCT が用いられている.そのアルゴリズムにおける評価関数の影響について,より詳しく手を評価できるオセロを題材として,ニューラルネットワーク評価関数を用いた場合と,線形な評価関数を用いた場合とで実験により考察を行った.前者については,国内の研究会にて発表した.
(2) 確率的一人ゲーム「2048」に対する強化学習:これまでゲーム「2048」に対して,線形な評価関数を用いた強化学習が研究の主流であった.研究代表者らは,「2048」をうまくプレイするニューラルネットワークを教師あり学習により実現できることを示している.本年度は,それを拡張して,強化学習により作成したニューラルネットワークのバリューネットワークにより優れたプレイヤが実現できることを示した.本件は,英文論文誌に再録された.また,「2048」を二人ゲームに拡張した「対戦型2048」に対しても同様の手法を適用し,一定の成果を得た.本件は,国内学会にて発表した.
(3) 不完全情報ゲーム「ガイスター」のプレイヤ:次年度以降に取り組む課題として,不完全情報ゲーム「ガイスター」についてそのプレイヤ作成を複数の視点から取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議が延期・中止されたこともあり,一部の成果については次年度に投稿・発表することを目指している.

Strategy for Future Research Activity

次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める.
(1) AlphaGo における PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワーク,(3) 不完全情報ゲーム「ガイスター」のプレイヤへの学習の適用

Causes of Carryover

本年度に出版されることを見込んでいた論文の掲載が遅れたため,その分の掲載料を次年度に支払う予定である.また,新型コロナウイルスの影響により,国内会議・国際会議が延期・中止・オンライン開催となったため.次年度に,当該会議を含む学会へ参加することで使用する予定である.

  • Research Products

    (4 results)

All 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (3 results)

  • [Journal Article] Developing Value Networks for Game 2048 with Reinforcement Learning2021

    • Author(s)
      Matsuzaki Kiminori
    • Journal Title

      Journal of Information Processing

      Volume: 29 Pages: 336~346

    • DOI

      10.2197/ipsjjip.29.336

    • Peer Reviewed / Open Access
  • [Presentation] ニューラルネットワークと強化学習による対戦型2048プレイヤの作成2021

    • Author(s)
      横山 智洋,松崎 公紀
    • Organizer
      情報処理学会第62回プログラミングシンポジウム
  • [Presentation] ニューラルネットワークを用いたガイスターの相手駒色推定とその拡張2021

    • Author(s)
      寺村舞童華, 松崎公紀
    • Organizer
      情報処理学会第45回ゲーム情報学研究会
  • [Presentation] An Experimental Evaluation of PUCT Algorithm with Convolutional Neural Network Evaluation Functions2020

    • Author(s)
      Lucien Troillet, Kiminori Matsuzaki
    • Organizer
      情報処理学会第44回ゲーム情報学研究会

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi