2021 Fiscal Year Research-status Report

連続空間ゲームにおける深層学習を利用した強化学習

Research Project

Project/Area Number	18K11600
Research Institution	The University of Tokyo
Principal Investigator	田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)
Project Period (FY)	2018-04-01 – 2023-03-31
Keywords	連続空間ゲーム / 深層学習 / 強化学習
Outline of Annual Research Achievements	本研究ではカーリングのような連続状態空間,連続アクション空間を対象にしたゲームについて,効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し,連続アクション空間でも可能な探索手法を提案,評価することを目的として,研究を開始した. ネットワーク構造の構築,学習アルゴリズムの設計のために,より簡易化した問題を用いた様々な条件下での大量の実験が必要となり,2018年度に導入したGPU搭載並列計算機を用いての実験環境は整ってきたが,連続状態空間,連続アクション空間の例であるカーリングをターゲットとする上で,非決定性を持つ環境についての研究をすすめる必要があり,2021年度は不完全情報ゲームのうちでも扱いやすい同時手番ゲームについて，強解決することにより，学習の教師とすることを可能にすることを試みた．その際に，ある程度の大きさを持つゲームが必要であるため，状態数が 537,103個のR-Rivals というランダムな要素を含まない同時手番ゲームの2人零和ゲームのナッシュ均衡戦略を求めた．また，Content Generationの可能性を評価するため，タワーディフェンスゲームというジャンルのゲームのレベル（地図と敵の出現パターン）の敵対的生成ネットワーク（GAN）を用いた自動生成を試みた．タワーディフェンスゲーム自体は，連続状態空間,連続アクション空間を対象にしたゲームではないが，同様のアプローチは連続状態空間,連続アクション空間を対象にしたゲームにも適用できる可能性がある．これらの研究成果はプログラムや解析結果のデータを公開することによって,今後の研究者がゲームを対象にした強化学習の評価をおこなう際の題材として利用可能にしている.
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason もともと連続状態空間,連続アクション空間のゲームとして対象としていたカーリングでフリーガードゾーンに関するルール改定があり,それを反映してデジタルカーリングについてもルール変更があったが,その変更に追随する時間がなかった.そのため,2021年度は連続状態空間,連続アクション空間の強化学習をおこなう上で必要になる非決定性を持つ環境や強解決が可能なゲームに関しての研究を進めていった. その研究の過程で,2018年度に導入したGPU搭載並列計算機を用いた長時間の強化学習をおこなう環境も構築し,更に大量の計算機資源を必要とするハイパーパラメータ自動最適化フレームワークOptunaを利用して研究を進めることができた.これらの知見は連続状態空間,連続アクション空間における強化学習の研究に生かすこともできると思われる.
Strategy for Future Research Activity	2018年度に導入したGPU搭載並列計算機上での実行環境は整ってきたが,深層学習ライブラリである Chainer が2019年12月に開発を終了し,研究のベースに使っていた強化深層学習ライブラリ ChainerRL から別のフレームワークへの移行が必要になると思われる.また,新型コロナウイルスの流行により,リモート勤務が続くなかで,2022年度の前半は再起動を伴うような大規模なマシンの構成変更等は難しいと思われる.実験に関しては,大規模実験に関しては古い計算機環境を用いたものが中心になると考えられる. 離散空間でおこなったのと同様に,連続状態空間,連続アクション空間の簡易化した問題を想定して,当初の予定した再帰的な空間分割による手法を実装し,離散化した表現による手法,あるいは連続状態空間を扱う従来手法と大規模な比較実験をおこなう予定である.
Causes of Carryover	2021年度後半に情報収集のために国際学会に参加する予定で旅費を計上していたが,新型コロナウイルス関係でオンライン開催に変更になり年度内に使用ができず,次年度使用に回すことにした. 次年度使用額の使用計画としては,国際学会の参加の旅費を想定している.ただし,参加を想定していた国際学会のいくつかはすでにオンライン開催が決定していて,2022年度後半の国際学会の開催形態については不透明であるので,年度途中に再考の必要が生じる可能性はある.