2019 Fiscal Year Research-status Report

連続空間ゲームにおける深層学習を利用した強化学習

Research Project

Project/Area Number	18K11600
Research Institution	The University of Tokyo
Principal Investigator	田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	連続空間ゲーム / 深層学習 / 強化学習
Outline of Annual Research Achievements	囲碁，将棋，チェスなどの離散で有限な状態空間，アクション空間を持つゲームに関して，畳み込みニューラルネットワーク(CNN)を用いたポリシーネットワーク，バリューネットワークを構築し，モンテカルロ木探索を用いた自己対戦結果を用いた強化学習で学習させる手法が成功をおさめているが，本研究ではカーリングのような連続状態空間，連続アクション空間を対象にしたゲームについて，効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し，連続アクション空間でも可能な探索手法を提案，評価することを目的として，研究を開始した．ネットワーク構造の構築，学習アルゴリズムの設計のために，より簡易化した問題を用いた様々な条件下での大量の実験が必要となり，2018年度に導入したGPU搭載並列計算機を用いての実験環境は整ってきたが，連続状態空間，連続アクション空間の例であるカーリングをターゲットとする上で，非決定性を持つ環境や階層型強化学習についての研究をすすめる必要があり，2019年度は離散状態，離散アクションで非決定性を持つゲームである麻雀を対象とした研究，簡単な世界に対する階層型強化学習の研究を進めた．麻雀のポリシー関数に適したネットワークモデルを構築する研究では，完全なプレイが可能となるミニ麻雀を対象にして，ミニ麻雀に関するルールを入力に与えることなく，CNNを用いた精度高いポリシー関数を構成することに成功した．この際，ハイパーパラメータ自動最適化フレームワークOptunaを用いてポリシー関数の構成に適したネットワークモデルを求める方法が有効であるという知見が得られた．また，グリッド世界を用いた階層型強化学習の評価では，簡単なグリッド世界の環境をいくつか提案し，CNNを用いて強化学習させる実験をおこなった．これらの研究成果はプログラムを公開することによって，今後の研究者が利用可能にしてある．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason もともと連続状態空間，連続アクション空間のゲームとして対象としていたカーリングでフリーガードゾーンに関するルール改定があり，それを反映してデジタルカーリングについてもルール変更があったが，その変更に追随する時間がなかった．そのため，2019年度は連続状態空間，連続アクション空間の強化学習をおこなう上で必要になる非決定性を持つ環境や階層型強化学習に関しての研究を進めていった．その研究の過程で，2018年度に導入したGPU搭載並列計算機を用いた長時間の強化学習をおこなう環境も構築し，更に大量の計算機資源を必要とするハイパーパラメータ自動最適化フレームワークOptunaを利用して研究を進めることができた．これらの知見は連続状態空間，連続アクション空間における強化学習の研究に生かすこともできると思われる．
Strategy for Future Research Activity	2018年度に導入したGPU搭載並列計算機上での実行環境は整ってきたが，深層学習ライブラリである Chainer が2019年12月に開発を終了し，研究のベースに使っていた強化深層学習ライブラリ ChainerRL から別のフレームワークへの移行が必要になると思われる．また，新型コロナウイルスの流行により，リモート勤務が続くなかで，2020年度の前半は再起動を伴うような大規模なマシンの構成変更等は難しいと思われる．実験に関しては，大規模実験に関しては古い計算機環境を用いたものが中心になると考えられる．離散空間でおこなったのと同様に，連続状態空間，連続アクション空間の簡易化した問題を想定して，当初の予定した再帰的な空間分割による手法を実装し，離散化した表現による手法，あるいは連続状態空間を扱う従来手法と大規模な比較実験をおこなう予定である．
Causes of Carryover	2019年度後半に情報収集のために国際学会に参加する予定で旅費を計上していたが，新型コロナウイルス関係でオンライン開催に変更になり年度内に使用ができず，次年度使用に回すことにした．次年度使用額の使用計画としては，国際学会の参加の旅費を想定している．ただし，参加を想定していた国際学会のいくつかはすでにオンライン開催が決定していて，2020年度後半の国際学会の開催形態については不透明であるので，年度途中に再考の必要が生じる可能性はある．