連続空間ゲームにおける深層学習を利用した強化学習

研究課題

研究課題/領域番号	18K11600
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分62040:エンタテインメントおよびゲーム情報学関連
研究機関	東京大学
研究代表者	田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)
研究期間 (年度)	2018-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	2,990千円 (直接経費: 2,300千円、間接経費: 690千円) 2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2019年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2018年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	連続空間ゲーム / 強化学習 / 不完全情報ゲーム / ナッシュ均衡 / 強解決 / 連続空間 / 深層学習
研究成果の概要	デジタルカーリングを用いた研究の基礎として，カーリングの不確実性を排除した「決定的なデジタルカーリング」を提案し，そのゲームの勝敗に関する有益な知見を得たこと，不完全情報ゲームを扱うための階層型強化学習の有効性を検証するために，麻雀を用いた階層型強化学習の評価を行い，Optunaのようなハイパーパラメータ自動最適化フレームワークの有効性を確認したこと，そしてGANを用いたタワーディフェンスゲームの自動生成において有効性を検証したこと，いくつかの不完全情報ゲームのナッシュ均衡戦略をもとめたことなどが挙げられる．これらの研究成果はプログラムが公開され，今後の研究者に利用可能となっている．
研究成果の学術的意義や社会的意義	本来の研究目的である連続空間ゲームにおける深層学習を利用した強化学習における有効な学習手法の提案は実現できなかったため，学術的には大きな成果をあげることはできなかったといえる．一方で，社会的意義としては，連続空間ゲームであるカーリングの性質を考察することにより，学習アルゴリズムにおいて考慮すべき点などを指摘した点，連続空間ゲームと深い関連を持つ，不完全情報ゲームのいくつかについて，強解決をおこなったり，ナッシュ均衡戦略を求め，その解析結果を公開することにより，それらのゲームを題材に深層学習を利用した強化学習をおこなう際の評価の指標となる「正解」を与えた点など，一定の成果を果たした．

報告書

(6件)

研究成果
(15件)

すべて 2021 2020 2019 2018 その他

すべて学会発表 (8件) 備考 (7件)

[学会発表] R-Rivals のナッシュ均衡戦略2021
- 著者名/発表者名
  田中哲朗
- 学会等名
  第27回ゲームプログラミングワークショップ 2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] Procedural Content Generation for Tower Defense Games:a Preliminary Experiment with Reinforcement Learning2021
- 著者名/発表者名
  Yueming Xu, Tetsuro Tanaka
- 学会等名
  第27回ゲームプログラミングワークショップ 2021
- 関連する報告書
  2021 実施状況報告書
[学会発表] 深層強化学習を用いた麻雀プレイヤの構築2020
- 著者名/発表者名
  清水大志, 田中哲朗
- 学会等名
  第26回ゲームプログラミングワークショップ 2020
- 関連する報告書
  2020 実施状況報告書
[学会発表] 量子「アンパンマンのはじめてしょうぎ」の強解決2020
- 著者名/発表者名
  田中哲朗
- 学会等名
  第26回ゲームプログラミングワークショップ 2020
- 関連する報告書
  2020 実施状況報告書
[学会発表] 十六むさしの強解決2020
- 著者名/発表者名
  田中哲朗
- 学会等名
  第26回ゲームプログラミングワークショップ 2020
- 関連する報告書
  2020 実施状況報告書
[学会発表] 麻雀のポリシー関数に適したネットワークモデルの構築と評価2019
- 著者名/発表者名
  清水大志 , 田中哲朗
- 学会等名
  情報処理学会ゲームプログラミングワークショップ2019
- 関連する報告書
  2019 実施状況報告書
[学会発表] グリッド世界を用いた階層型強化学習の評価2019
- 著者名/発表者名
  高岡峻 , 田中哲朗
- 学会等名
  情報処理学会ゲームプログラミングワークショップ2019
- 関連する報告書
  2019 実施状況報告書
[学会発表] 決定的なデジタルカーリングの戦略2018
- 著者名/発表者名
  田中哲朗
- 学会等名
  カーリング科学ワークショップ
- 関連する報告書
  2018 実施状況報告書
[備考] r-rivals検証コード
- URL
  https://github.com/tanakat01/r-rivals
- 関連する報告書
  2021 実施状況報告書
[備考] すずめ雀強化学習実験プログラム
- URL
  https://github.com/minnsou/suzume-jong
- 関連する報告書
  2020 実施状況報告書
[備考] 量子「アンパンマンのはじめてしょうぎ」の後退解析プログラム
- URL
  https://github.com/tanakat01/quantum_anpanman
- 関連する報告書
  2020 実施状況報告書
[備考] 十六むさし後退解析プログラム
- URL
  https://github.com/tanakat01/16musashi
- 関連する報告書
  2020 実施状況報告書
[備考] 十六むさし局面検索
- URL
  https://gps.tanaka.ecc.u-tokyo.ac.jp/16musashi/
- 関連する報告書
  2020 実施状況報告書
[備考] ミニ麻雀環境
- URL
  https://github.com/u-tokyo-gps-tanaka-lab/mini_mahjong
- 関連する報告書
  2019 実施状況報告書
[備考] 「グリッド世界を用いた階層型強化学習の評価」実験コード
- URL
  https://github.com/u-tokyo-gps-tanaka-lab/gridworld_for_HRL
- 関連する報告書
  2019 実施状況報告書

連続空間ゲームにおける深層学習を利用した強化学習

研究代表者

田中 哲朗 東京大学, 情報基盤センター, 准教授 (60251360)

2,990千円 (直接経費: 2,300千円、間接経費: 690千円)

報告書

研究成果

[学会発表] R-Rivals のナッシュ均衡戦略2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Procedural Content Generation for Tower Defense Games:a Preliminary Experiment with Reinforcement Learning2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層強化学習を用いた麻雀プレイヤの構築2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 量子「アンパンマンのはじめてしょうぎ」の強解決2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 十六むさしの強解決2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] 麻雀のポリシー関数に適したネットワークモデルの構築と評価2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] グリッド世界を用いた階層型強化学習の評価2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] 決定的なデジタルカーリングの戦略2018

著者名/発表者名

学会等名

関連する報告書

[備考] r-rivals検証コード

URL

関連する報告書

[備考] すずめ雀強化学習実験プログラム

URL

関連する報告書

[備考] 量子「アンパンマンのはじめてしょうぎ」の後退解析プログラム

URL

関連する報告書

[備考] 十六むさし後退解析プログラム

URL

関連する報告書

[備考] 十六むさし局面検索

URL

関連する報告書

[備考] ミニ麻雀環境

URL

関連する報告書

[備考] 「グリッド世界を用いた階層型強化学習の評価」 実験コード

URL

関連する報告書

田中哲朗東京大学, 情報基盤センター, 准教授 (60251360)

[備考] 「グリッド世界を用いた階層型強化学習の評価」実験コード