• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実施状況報告書

連続空間ゲームにおける深層学習を利用した強化学習

研究課題

研究課題/領域番号 18K11600
研究機関東京大学

研究代表者

田中 哲朗  東京大学, 情報基盤センター, 准教授 (60251360)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワード連続空間ゲーム / 深層学習 / 強化学習
研究実績の概要

囲碁,将棋,チェスなどの離散で有限な状態空間,アクション空間を持つゲームに関して,畳み込みニューラルネットワーク(CNN)を用いたポリシーネットワーク,バリューネットワークを構築し,モンテカルロ木探索を用いた自己対戦結果を用いた強化学習で学習させる手法が成功をおさめているが,本研究ではカーリングのような連続状態空間,連続アクション空間を対象にしたゲームについて,効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し,連続アクション空間でも可能な探索手法を提案,評価することを目的として,研究を進めている.

現時点で成功をおさめている深層学習の多くが,画像のような均一な密度で空間を離散化したものであるが,想定するようなネットワーク構造に対する研究は少なく,ネットワーク構造の構築,学習アルゴリズムの設計のために,より簡易化した問題を用いた様々な条件下での大量の実験が必要となるが,GPU搭載並列計算機の導入が遅れたため,予定していた再帰的な空間分割により連続状態空間,連続アクション空間を扱う大規模な実験はまだおこなっていない.

予備的な研究として,連続状態空間,連続アクション空間の例として扱うカーリング,特に物理モデルを具体化して計算機によるシミュレーションをおこなう「デジタルカーリング」のゲームとしての性質を調べるために,ショットの誤差を0にした「決定的なデジタルカーリング」を提案して,そのゲームの勝敗に関して,「フリーガードゾーンのないルールでは第1エンドの後攻チームが勝てる」,「あるエンドで先攻チームが後攻チームに2点以上取らせない戦略が存在する」などの部分的な結果を得た.

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

「決定的なデジタルカーリング」に関する研究は,最後まで解ければ,扱う対象に関する知見を得る意味で意義が大きい研究となったと思われるが,部分的な結果を得ただけで終わった.年度の途中で,カーリングのフリーガードゾーンに関するルール改定もあり,「デジタルカーリング」もそれに追随してルール変更があったが,このルール改定は最終的な結果を得ることをより困難にする方向の改定であり,新しいルールに対して最終的な結果を得るのはより困難になったと思われる.

大量の実験のために,GPU搭載並列計算機の導入をおこなったが,年度の途中まで仮想通貨のマイニング等の影響で,GPUの品薄が続き,導入が遅れた.深層学習ライブラリ,深層学習強化学習ライブラリのアップデートに追随するための手間も予想よりも大きかった.

今後の研究の推進方策

実験環境は整ってきたので,いきなりカーリングのゲーム全体を,また強化学習のみで扱うのではなく,より簡易化した問題を想定して,当初の予定した再帰的な空間分割による手法を実装し,離散化した表現による手法,あるいは連続状態空間を扱う従来手法と大規模な比較実験をおこなう.

次年度使用額が生じた理由

購入した並列計算機は予定額より3万程度少ない額で導入できた.旅費に関しては,海外での2回分予定したが,国内での1回の発表にとどまったため,予定額よりも少額の出費に終わった.次年度使用額は調査も含めて海外の学会参加のために使用する計画である.

  • 研究成果

    (1件)

すべて 2018

すべて 学会発表 (1件)

  • [学会発表] 決定的なデジタルカーリングの戦略2018

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      カーリング科学ワークショップ

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi