• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

連続空間ゲームにおける深層学習を利用した強化学習

研究課題

研究課題/領域番号 18K11600
研究機関東京大学

研究代表者

田中 哲朗  東京大学, 情報基盤センター, 准教授 (60251360)

研究期間 (年度) 2018-04-01 – 2023-03-31
キーワード連続空間ゲーム / 深層学習 / 強化学習
研究実績の概要

本研究ではカーリングのような連続状態空間,連続アクション空間を対象にしたゲームについて,効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し,連続アクション空間でも可能な探索手法を提案,評価することを目的として,研究を開始した.
ネットワーク構造の構築,学習アルゴリズムの設計のために,より簡易化した問題を用いた様々な条件下での大量の実験が必要となり,2018年度に導入したGPU搭載並列計算機を用いての実験環境は整ってきたが,連続状態空間,連続アクション空間の例であるカーリングをターゲットとする上で,非決定性を持つ環境についての研究をすすめる必要があり,2021年度は不完全情報ゲームのうちでも扱いやすい同時手番ゲームについて,強解決することにより,学習の教師とすることを可能にすることを試みた.その際に,ある程度の大きさを持つゲームが必要であるため,状態数が 537,103個のR-Rivals というランダムな要素を含まない同時手番ゲームの2人零和ゲームのナッシュ均衡戦略を求めた.また,Content Generationの可能性を評価するため,タワーディフェンスゲームというジャンルのゲームのレベル(地図と敵の出現パターン)の敵対的生成ネットワーク(GAN)を用いた自動生成を試みた.タワーディフェンスゲーム自体は,連続状態空間,連続アクション空間を対象にしたゲームではないが,同様のアプローチは連続状態空間,連続アクション空間を対象にしたゲームにも適用できる可能性がある.
これらの研究成果はプログラムや解析結果のデータを公開することによって,今後の研究者がゲームを対象にした強化学習の評価をおこなう際の題材として利用可能にしている.

現在までの達成度 (区分)
現在までの達成度 (区分)

4: 遅れている

理由

もともと連続状態空間,連続アクション空間のゲームとして対象としていたカーリングでフリーガードゾーンに関するルール改定があり,それを反映してデジタルカーリングについてもルール変更があったが,その変更に追随する時間がなかった.そのため,2021年度は連続状態空間,連続アクション空間の強化学習をおこなう上で必要になる非決定性を持つ環境や強解決が可能なゲームに関しての研究を進めていった.

その研究の過程で,2018年度に導入したGPU搭載並列計算機を用いた長時間の強化学習をおこなう環境も構築し,更に大量の計算機資源を必要とするハイパーパラメータ自動最適化フレームワークOptunaを利用して研究を進めることができた.これらの知見は連続状態空間,連続アクション空間における強化学習の研究に生かすこともできると思われる.

今後の研究の推進方策

2018年度に導入したGPU搭載並列計算機上での実行環境は整ってきたが,深層学習ライブラリである Chainer が2019年12月に開発を終了し,研究のベースに使っていた強化深層学習ライブラリ ChainerRL から別のフレームワークへの移行が必要になると思われる.また,新型コロナウイルスの流行により,リモート勤務が続くなかで,2022年度の前半は再起動を伴うような大規模なマシンの構成変更等は難しいと思われる.実験に関しては,大規模実験に関しては古い計算機環境を用いたものが中心になると考えられる.
離散空間でおこなったのと同様に,連続状態空間,連続アクション空間の簡易化した問題を想定して,当初の予定した再帰的な空間分割による手法を実装し,離散化した表現による手法,あるいは連続状態空間を扱う従来手法と大規模な比較実験をおこなう予定である.

次年度使用額が生じた理由

2021年度後半に情報収集のために国際学会に参加する予定で旅費を計上していたが,新型コロナウイルス関係でオンライン開催に変更になり年度内に使用ができず,次年度使用に回すことにした.
次年度使用額の使用計画としては,国際学会の参加の旅費を想定している.ただし,参加を想定していた国際学会のいくつかはすでにオンライン開催が決定していて,2022年度後半の国際学会の開催形態については不透明であるので,年度途中に再考の必要が生じる可能性はある.

  • 研究成果

    (3件)

すべて 2021 その他

すべて 学会発表 (2件) 備考 (1件)

  • [学会発表] R-Rivals のナッシュ均衡戦略2021

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      第27回ゲームプログラミングワークショップ 2021
  • [学会発表] Procedural Content Generation for Tower Defense Games:a Preliminary Experiment with Reinforcement Learning2021

    • 著者名/発表者名
      Yueming Xu, Tetsuro Tanaka
    • 学会等名
      第27回ゲームプログラミングワークショップ 2021
  • [備考] r-rivals検証コード

    • URL

      https://github.com/tanakat01/r-rivals

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi