2018 Fiscal Year Research-status Report

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

Research Project

Project/Area Number	18K19832
Research Institution	The University of Tokyo
Principal Investigator	金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)
Project Period (FY)	2018-06-29 – 2021-03-31
Keywords	ゲームプログラミング
Outline of Annual Research Achievements	人工知能分野の強化学習では，環境の中で自律的に行動するAIエージェントを想定し，そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する．本研究の目的は，不完全情報かつ多人数のゲームを題材に，モデルを持つ深層強化学習に関する基盤技術を開発することで，AIエージェントの劇的な性能向上をより広い分野で実現することにある．強化学習は，汎用性の高い枠組みで，エージェントと環境の相互作用を扱う．エージェントが「行動」することで「環境」に働きかけ，環境はエージェント行動と他の要因により確率的に「状態」を変え，エージェントは状態の一部を観測し，ときおり報酬(ペナルティを含む)を得る．ここで，どのような状態と行動で報酬が得られるかは既知でないため，エージェントは試行錯誤を通じて環境を理解する必要がある．本研究ではその対象をさらに広げて，現実に近い複雑さを持つ問題の例として，不完全情報かつ多人数のゲームを扱う．不完全情報とは，観測できない状態が存在することであり，多人数とは，状況によって敵にも味方にもなりうる他者が存在することである．問題が複雑になるほど，エージェントの学習は困難になる．そこで本研究では，既存技術である深層学習に加えて，不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを，新たに提唱し，核となる技術の確率を目指す．研究の初年度として，本年度は，エージェントが3人以上の環境に取り組む基礎として1人または2人の不完全情報ゲームにおける強化学習技術の性能を評価した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 初年度としておおむね予想通りの結果が得られた．
Strategy for Future Research Activity	初年度の結果を反映した微調整をしながら，研究計画に沿って勧める．
Causes of Carryover	残額は3万円未満の少額なので，次年度に合わせて使用する．

Research Products
(8 results)

All 2018

All Journal Article (8 results) (of which Peer Reviewed: 8 results, Open Access: 6 results)

[Journal Article] Deep Recurrent Q-Network with Truncated History2018
- Author(s)
  Hyunwoo Oh and Tomoyuki Kaneko
- Journal Title
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  Volume: - Pages: 34--39
- DOI
  DOI 10.1109/TAAI.2018.00017
- Peer Reviewed
[Journal Article] Application of Deep Reinforcement Learning in Werewolf Game Agents2018
- Author(s)
  Tianhe Wang and Tomoyuki Kaneko
- Journal Title
  
  IEEE Technologies and Applications of Artificial Intelligence
  
  Volume: - Pages: 28--33
- DOI
  10.1109/TAAI.2018.00016
- Peer Reviewed
[Journal Article] Playing the Flappy Bird with Reinforcement Learning Algorithms2018
- Author(s)
  Hanhua Zhu and Tomoyuki Kaneko
- Journal Title
  
  The 23rd Game Programming Workshop
  
  Volume: - Pages: 153--159
- Peer Reviewed / Open Access
[Journal Article] Counterfactual Regret Minimization for the Board Game Geister2018
- Author(s)
  Chen Chen and Tomoyuki Kaneko
- Journal Title
  
  The 23rd Game Programming Workshop
  
  Volume: - Pages: 137--144
- Peer Reviewed / Open Access
[Journal Article] Reinforcement Learning with Effective Exploitation of Experiences on Mini-Games of StarCraft II2018
- Author(s)
  ZheJie Hu and Tomoyuki Kaneko
- Journal Title
  
  The 23rd Game Programming Workshop
  
  Volume: - Pages: 168--174
- Peer Reviewed / Open Access
[Journal Article] ローグライクゲームによる強化学習ベンチマーク環境Rogue-Gymの提案2018
- Author(s)
  金川裕司金子知適
- Journal Title
  
  第23回ゲームプログラミングワークショップ
  
  Volume: - Pages: 120--127
- Peer Reviewed / Open Access
[Journal Article] 人狼エージェントにおける深層Qネットワークの応用2018
- Author(s)
  王天鶴金子知適
- Journal Title
  
  第23回ゲームプログラミングワークショップ
  
  Volume: - Pages: 16--22
- Peer Reviewed / Open Access
[Journal Article] LSTM の初期状態の学習による DRQN の改善2018
- Author(s)
  Oh Hyunwoo 金子知適
- Journal Title
  
  第23回ゲームプログラミングワークショップ
  
  Volume: - Pages: 220--227
- Peer Reviewed / Open Access

2018 Fiscal Year Research-status Report

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

Principal Investigator

金子 知適 東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Deep Recurrent Q-Network with Truncated History2018

Author(s)

Journal Title

DOI

[Journal Article] Application of Deep Reinforcement Learning in Werewolf Game Agents2018

Author(s)

Journal Title

DOI

[Journal Article] Playing the Flappy Bird with Reinforcement Learning Algorithms2018

Author(s)

Journal Title

[Journal Article] Counterfactual Regret Minimization for the Board Game Geister2018

Author(s)

Journal Title

[Journal Article] Reinforcement Learning with Effective Exploitation of Experiences on Mini-Games of StarCraft II2018

Author(s)

Journal Title

[Journal Article] ローグライクゲームによる強化学習ベンチマーク環境Rogue-Gymの提案2018

Author(s)

Journal Title

[Journal Article] 人狼エージェントにおける深層Qネットワークの応用2018

Author(s)

Journal Title

[Journal Article] LSTM の初期状態の学習による DRQN の改善2018

Author(s)

Journal Title

金子知適東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)