• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

連続空間ゲームにおける深層学習を利用した強化学習

研究課題

研究課題/領域番号 18K11600
研究機関東京大学

研究代表者

田中 哲朗  東京大学, 情報基盤センター, 准教授 (60251360)

研究期間 (年度) 2018-04-01 – 2023-03-31
キーワード連続空間 / 強化学習 / 不完全情報ゲーム / ナッシュ均衡
研究実績の概要

囲碁,将棋,チェスなどの離散で有限な状態空間,アクション空間を持つゲームに関して,畳み込みニューラルネットワーク(CNN)を用いたポリシーネットワーク,バリューネットワークを構築し,モンテカルロ木探索を用いた自己対戦結果を用いた強化学習で学習させる手法が成功をおさめている.本研究ではカーリングのような連続状態空間,連続アクション空間を対象にしたゲームについて,効果的な畳み込みニューラルネットワーク(CNN)の構成法を構築し,連続アクション空間でも可能な探索手法を提案,評価することを目的として,研究を開始した.

2022年度は,ゲームの不完全情報性に焦点を当て,ガイスターというゲームのナッシュ均衡に関する研究を進めたが,発表には至らなかった.

研究期間全体での成果として,デジタルカーリングを用いた研究の基礎として,カーリングの不確実性を排除した「決定的なデジタルカーリング」を提案し,そのゲームの勝敗に関する有益な知見を得たこと,不完全情報ゲームを扱うための階層型強化学習の有効性を検証するために,麻雀を用いた階層型強化学習の評価を行い,Optunaのようなハイパーパラメータ自動最適化フレームワークの有効性を確認したこと,そしてGANを用いたタワーディフェンスゲームの自動生成において有効性を検証したこと,いくつかの不完全情報ゲームのナッシュ均衡戦略をもとめたことなどが挙げられる.これらの研究成果はプログラムが公開され,今後の研究者に利用可能となっている.

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi