2018 Fiscal Year Research-status Report

連続空間ゲームにおける深層学習を利用した強化学習

Research Project

Project/Area Number	18K11600
Research Institution	The University of Tokyo
Principal Investigator	田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)
Project Period (FY)	2018-04-01 – 2021-03-31
Keywords	連続空間ゲーム / 深層学習 / 強化学習
Outline of Annual Research Achievements	囲碁，将棋，チェスなどの離散で有限な状態空間，アクション空間を持つゲームに関して，畳み込みニューラルネットワーク(CNN)を用いたポリシーネットワーク，バリューネットワークを構築し，モンテカルロ木探索を用いた自己対戦結果を用いた強化学習で学習させる手法が成功をおさめているが，本研究ではカーリングのような連続状態空間，連続アクション空間を対象にしたゲームについて，効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し，連続アクション空間でも可能な探索手法を提案，評価することを目的として，研究を進めている．現時点で成功をおさめている深層学習の多くが，画像のような均一な密度で空間を離散化したものであるが，想定するようなネットワーク構造に対する研究は少なく，ネットワーク構造の構築，学習アルゴリズムの設計のために，より簡易化した問題を用いた様々な条件下での大量の実験が必要となるが，GPU搭載並列計算機の導入が遅れたため，予定していた再帰的な空間分割により連続状態空間，連続アクション空間を扱う大規模な実験はまだおこなっていない．予備的な研究として，連続状態空間，連続アクション空間の例として扱うカーリング，特に物理モデルを具体化して計算機によるシミュレーションをおこなう「デジタルカーリング」のゲームとしての性質を調べるために，ショットの誤差を0にした「決定的なデジタルカーリング」を提案して，そのゲームの勝敗に関して，「フリーガードゾーンのないルールでは第1エンドの後攻チームが勝てる」，「あるエンドで先攻チームが後攻チームに2点以上取らせない戦略が存在する」などの部分的な結果を得た．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 「決定的なデジタルカーリング」に関する研究は，最後まで解ければ，扱う対象に関する知見を得る意味で意義が大きい研究となったと思われるが，部分的な結果を得ただけで終わった．年度の途中で，カーリングのフリーガードゾーンに関するルール改定もあり，「デジタルカーリング」もそれに追随してルール変更があったが，このルール改定は最終的な結果を得ることをより困難にする方向の改定であり，新しいルールに対して最終的な結果を得るのはより困難になったと思われる．大量の実験のために，GPU搭載並列計算機の導入をおこなったが，年度の途中まで仮想通貨のマイニング等の影響で，GPUの品薄が続き，導入が遅れた．深層学習ライブラリ，深層学習強化学習ライブラリのアップデートに追随するための手間も予想よりも大きかった．
Strategy for Future Research Activity	実験環境は整ってきたので，いきなりカーリングのゲーム全体を，また強化学習のみで扱うのではなく，より簡易化した問題を想定して，当初の予定した再帰的な空間分割による手法を実装し，離散化した表現による手法，あるいは連続状態空間を扱う従来手法と大規模な比較実験をおこなう．
Causes of Carryover	購入した並列計算機は予定額より3万程度少ない額で導入できた．旅費に関しては，海外での2回分予定したが，国内での1回の発表にとどまったため，予定額よりも少額の出費に終わった．次年度使用額は調査も含めて海外の学会参加のために使用する計画である．

Research Products
(1 results)

All Presentation (1 results)

[Presentation] 決定的なデジタルカーリングの戦略2018
- Author(s)
  田中哲朗
- Organizer
  カーリング科学ワークショップ