研究課題/領域番号 |
18K11600
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62040:エンタテインメントおよびゲーム情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
田中 哲朗 東京大学, 情報基盤センター, 准教授 (60251360)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2019年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2018年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 連続空間ゲーム / 強化学習 / 不完全情報ゲーム / ナッシュ均衡 / 強解決 / 連続空間 / 深層学習 |
研究成果の概要 |
デジタルカーリングを用いた研究の基礎として,カーリングの不確実性を排除した「決定的なデジタルカーリング」を提案し,そのゲームの勝敗に関する有益な知見を得たこと,不完全情報ゲームを扱うための階層型強化学習の有効性を検証するために,麻雀を用いた階層型強化学習の評価を行い,Optunaのようなハイパーパラメータ自動最適化フレームワークの有効性を確認したこと,そしてGANを用いたタワーディフェンスゲームの自動生成において有効性を検証したこと,いくつかの不完全情報ゲームのナッシュ均衡戦略をもとめたことなどが挙げられる.これらの研究成果はプログラムが公開され,今後の研究者に利用可能となっている.
|
研究成果の学術的意義や社会的意義 |
本来の研究目的である連続空間ゲームにおける深層学習を利用した強化学習における有効な学習手法の提案は実現できなかったため,学術的には大きな成果をあげることはできなかったといえる.一方で,社会的意義としては,連続空間ゲームであるカーリングの性質を考察することにより,学習アルゴリズムにおいて考慮すべき点などを指摘した点,連続空間ゲームと深い関連を持つ,不完全情報ゲームのいくつかについて,強解決をおこなったり,ナッシュ均衡戦略を求め,その解析結果を公開することにより,それらのゲームを題材に深層学習を利用した強化学習をおこなう際の評価の指標となる「正解」を与えた点など,一定の成果を果たした.
|