• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

連続空間ゲームにおける深層学習を利用した強化学習

研究課題

研究課題/領域番号 18K11600
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分62040:エンタテインメントおよびゲーム情報学関連
研究機関東京大学

研究代表者

田中 哲朗  東京大学, 情報基盤センター, 准教授 (60251360)

研究期間 (年度) 2018-04-01 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2019年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2018年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード連続空間ゲーム / 強化学習 / 不完全情報ゲーム / ナッシュ均衡 / 強解決 / 連続空間 / 深層学習
研究成果の概要

デジタルカーリングを用いた研究の基礎として,カーリングの不確実性を排除した「決定的なデジタルカーリング」を提案し,そのゲームの勝敗に関する有益な知見を得たこと,不完全情報ゲームを扱うための階層型強化学習の有効性を検証するために,麻雀を用いた階層型強化学習の評価を行い,Optunaのようなハイパーパラメータ自動最適化フレームワークの有効性を確認したこと,そしてGANを用いたタワーディフェンスゲームの自動生成において有効性を検証したこと,いくつかの不完全情報ゲームのナッシュ均衡戦略をもとめたことなどが挙げられる.これらの研究成果はプログラムが公開され,今後の研究者に利用可能となっている.

研究成果の学術的意義や社会的意義

本来の研究目的である連続空間ゲームにおける深層学習を利用した強化学習における有効な学習手法の提案は実現できなかったため,学術的には大きな成果をあげることはできなかったといえる.一方で,社会的意義としては,連続空間ゲームであるカーリングの性質を考察することにより,学習アルゴリズムにおいて考慮すべき点などを指摘した点,連続空間ゲームと深い関連を持つ,不完全情報ゲームのいくつかについて,強解決をおこなったり,ナッシュ均衡戦略を求め,その解析結果を公開することにより,それらのゲームを題材に深層学習を利用した強化学習をおこなう際の評価の指標となる「正解」を与えた点など,一定の成果を果たした.

報告書

(6件)
  • 2022 実績報告書   研究成果報告書 ( PDF )
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 2019 実施状況報告書
  • 2018 実施状況報告書
  • 研究成果

    (15件)

すべて 2021 2020 2019 2018 その他

すべて 学会発表 (8件) 備考 (7件)

  • [学会発表] R-Rivals のナッシュ均衡戦略2021

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      第27回ゲームプログラミングワークショップ 2021
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] Procedural Content Generation for Tower Defense Games:a Preliminary Experiment with Reinforcement Learning2021

    • 著者名/発表者名
      Yueming Xu, Tetsuro Tanaka
    • 学会等名
      第27回ゲームプログラミングワークショップ 2021
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] 深層強化学習を用いた麻雀プレイヤの構築2020

    • 著者名/発表者名
      清水大志, 田中哲朗
    • 学会等名
      第26回ゲームプログラミングワークショップ 2020
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 量子「アンパンマンのはじめてしょうぎ」の強解決2020

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      第26回ゲームプログラミングワークショップ 2020
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 十六むさしの強解決2020

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      第26回ゲームプログラミングワークショップ 2020
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 麻雀のポリシー関数に適したネットワークモデルの構築と評価2019

    • 著者名/発表者名
      清水 大志 , 田中 哲朗
    • 学会等名
      情報処理学会ゲームプログラミングワークショップ2019
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] グリッド世界を用いた階層型強化学習の評価2019

    • 著者名/発表者名
      高岡 峻 , 田中 哲朗
    • 学会等名
      情報処理学会ゲームプログラミングワークショップ2019
    • 関連する報告書
      2019 実施状況報告書
  • [学会発表] 決定的なデジタルカーリングの戦略2018

    • 著者名/発表者名
      田中哲朗
    • 学会等名
      カーリング科学ワークショップ
    • 関連する報告書
      2018 実施状況報告書
  • [備考] r-rivals検証コード

    • URL

      https://github.com/tanakat01/r-rivals

    • 関連する報告書
      2021 実施状況報告書
  • [備考] すずめ雀強化学習実験プログラム

    • URL

      https://github.com/minnsou/suzume-jong

    • 関連する報告書
      2020 実施状況報告書
  • [備考] 量子「アンパンマンのはじめてしょうぎ」の後退解析プログラム

    • URL

      https://github.com/tanakat01/quantum_anpanman

    • 関連する報告書
      2020 実施状況報告書
  • [備考] 十六むさし後退解析プログラム

    • URL

      https://github.com/tanakat01/16musashi

    • 関連する報告書
      2020 実施状況報告書
  • [備考] 十六むさし局面検索

    • URL

      https://gps.tanaka.ecc.u-tokyo.ac.jp/16musashi/

    • 関連する報告書
      2020 実施状況報告書
  • [備考] ミニ麻雀環境

    • URL

      https://github.com/u-tokyo-gps-tanaka-lab/mini_mahjong

    • 関連する報告書
      2019 実施状況報告書
  • [備考] 「グリッド世界を用いた階層型強化学習の評価」 実験コード

    • URL

      https://github.com/u-tokyo-gps-tanaka-lab/gridworld_for_HRL

    • 関連する報告書
      2019 実施状況報告書

URL: 

公開日: 2018-04-23   更新日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi