2022 Fiscal Year Annual Research Report

Reinforcement Learning Using Deep Learning in Continuous Space Games

Research Project

Project/Area Number	18K11600
Research Institution	The University of Tokyo
Principal Investigator	田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)
Project Period (FY)	2018-04-01 – 2023-03-31
Keywords	連続空間 / 強化学習 / 不完全情報ゲーム / ナッシュ均衡
Outline of Annual Research Achievements	囲碁，将棋，チェスなどの離散で有限な状態空間，アクション空間を持つゲームに関して，畳み込みニューラルネットワーク(CNN)を用いたポリシーネットワーク，バリューネットワークを構築し，モンテカルロ木探索を用いた自己対戦結果を用いた強化学習で学習させる手法が成功をおさめている.本研究ではカーリングのような連続状態空間，連続アクション空間を対象にしたゲームについて，効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し，連続アクション空間でも可能な探索手法を提案，評価することを目的として，研究を開始した． 2022年度は，ゲームの不完全情報性に焦点を当て，ガイスターというゲームのナッシュ均衡に関する研究を進めたが，発表には至らなかった．研究期間全体での成果として，デジタルカーリングを用いた研究の基礎として，カーリングの不確実性を排除した「決定的なデジタルカーリング」を提案し，そのゲームの勝敗に関する有益な知見を得たこと，不完全情報ゲームを扱うための階層型強化学習の有効性を検証するために，麻雀を用いた階層型強化学習の評価を行い，Optunaのようなハイパーパラメータ自動最適化フレームワークの有効性を確認したこと，そしてGANを用いたタワーディフェンスゲームの自動生成において有効性を検証したこと，いくつかの不完全情報ゲームのナッシュ均衡戦略をもとめたことなどが挙げられる．これらの研究成果はプログラムが公開され，今後の研究者に利用可能となっている．