2018 年度実施状況報告書

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

研究課題

研究課題/領域番号	18K19832
研究機関	東京大学
研究代表者	金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)
研究期間 (年度)	2018-06-29 – 2021-03-31
キーワード	ゲームプログラミング
研究実績の概要	人工知能分野の強化学習では，環境の中で自律的に行動するAIエージェントを想定し，そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する．本研究の目的は，不完全情報かつ多人数のゲームを題材に，モデルを持つ深層強化学習に関する基盤技術を開発することで，AIエージェントの劇的な性能向上をより広い分野で実現することにある．強化学習は，汎用性の高い枠組みで，エージェントと環境の相互作用を扱う．エージェントが「行動」することで「環境」に働きかけ，環境はエージェント行動と他の要因により確率的に「状態」を変え，エージェントは状態の一部を観測し，ときおり報酬(ペナルティを含む)を得る．ここで，どのような状態と行動で報酬が得られるかは既知でないため，エージェントは試行錯誤を通じて環境を理解する必要がある．本研究ではその対象をさらに広げて，現実に近い複雑さを持つ問題の例として，不完全情報かつ多人数のゲームを扱う．不完全情報とは，観測できない状態が存在することであり，多人数とは，状況によって敵にも味方にもなりうる他者が存在することである．問題が複雑になるほど，エージェントの学習は困難になる．そこで本研究では，既存技術である深層学習に加えて，不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを，新たに提唱し，核となる技術の確率を目指す．研究の初年度として，本年度は，エージェントが3人以上の環境に取り組む基礎として1人または2人の不完全情報ゲームにおける強化学習技術の性能を評価した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由初年度としておおむね予想通りの結果が得られた．
今後の研究の推進方策	初年度の結果を反映した微調整をしながら，研究計画に沿って勧める．
次年度使用額が生じた理由	残額は3万円未満の少額なので，次年度に合わせて使用する．

研究成果
(8件)

すべて 2018

すべて雑誌論文 (8件) (うち査読あり 8件、オープンアクセス 6件)

[雑誌論文] Deep Recurrent Q-Network with Truncated History2018
- 著者名/発表者名
  Hyunwoo Oh and Tomoyuki Kaneko
- 雑誌名
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  巻: - ページ: 34--39
- DOI
  DOI 10.1109/TAAI.2018.00017
- 査読あり
[雑誌論文] Application of Deep Reinforcement Learning in Werewolf Game Agents2018
- 著者名/発表者名
  Tianhe Wang and Tomoyuki Kaneko
- 雑誌名
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  巻: - ページ: 28--33
- DOI
  10.1109/TAAI.2018.00016
- 査読あり
[雑誌論文] Playing the Flappy Bird with Reinforcement Learning Algorithms2018
- 著者名/発表者名
  Hanhua Zhu and Tomoyuki Kaneko
- 雑誌名
  
  The 23rd Game Programming Workshop
  
  巻: - ページ: 153--159
- 査読あり / オープンアクセス
[雑誌論文] Counterfactual Regret Minimization for the Board Game Geister2018
- 著者名/発表者名
  Chen Chen and Tomoyuki Kaneko
- 雑誌名
  
  The 23rd Game Programming Workshop
  
  巻: - ページ: 137--144
- 査読あり / オープンアクセス
[雑誌論文] Reinforcement Learning with Effective Exploitation of Experiences on Mini-Games of StarCraft II2018
- 著者名/発表者名
  ZheJie Hu and Tomoyuki Kaneko
- 雑誌名
  
  The 23rd Game Programming Workshop
  
  巻: - ページ: 168--174
- 査読あり / オープンアクセス
[雑誌論文] ローグライクゲームによる強化学習ベンチマーク環境Rogue-Gymの提案2018
- 著者名/発表者名
  金川裕司金子知適
- 雑誌名
  
  第23回ゲームプログラミングワークショップ
  
  巻: - ページ: 120--127
- 査読あり / オープンアクセス
[雑誌論文] 人狼エージェントにおける深層Qネットワークの応用2018
- 著者名/発表者名
  王天鶴金子知適
- 雑誌名
  
  第23回ゲームプログラミングワークショップ
  
  巻: - ページ: 16--22
- 査読あり / オープンアクセス
[雑誌論文] LSTM の初期状態の学習による DRQN の改善2018
- 著者名/発表者名
  Oh Hyunwoo 金子知適
- 雑誌名
  
  第23回ゲームプログラミングワークショップ
  
  巻: - ページ: 220--227
- 査読あり / オープンアクセス

2018 年度 実施状況報告書

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

研究代表者

金子 知適 東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Deep Recurrent Q-Network with Truncated History2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Application of Deep Reinforcement Learning in Werewolf Game Agents2018

著者名/発表者名

雑誌名

DOI

[雑誌論文] Playing the Flappy Bird with Reinforcement Learning Algorithms2018

著者名/発表者名

雑誌名

[雑誌論文] Counterfactual Regret Minimization for the Board Game Geister2018

著者名/発表者名

雑誌名

[雑誌論文] Reinforcement Learning with Effective Exploitation of Experiences on Mini-Games of StarCraft II2018

著者名/発表者名

雑誌名

[雑誌論文] ローグライクゲームによる強化学習ベンチマーク環境Rogue-Gymの提案2018

著者名/発表者名

雑誌名

[雑誌論文] 人狼エージェントにおける深層Qネットワークの応用2018

著者名/発表者名

雑誌名

[雑誌論文] LSTM の初期状態の学習による DRQN の改善2018

著者名/発表者名

雑誌名

2018 年度実施状況報告書

金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)