• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

Research Project

Project/Area Number 18K19832
Research InstitutionThe University of Tokyo

Principal Investigator

金子 知適  東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

Project Period (FY) 2018-06-29 – 2021-03-31
Keywordsゲームプログラミング
Outline of Annual Research Achievements

人工知能分野の強化学習では,環境の中で自律的に行動するAIエージェントを想定し,そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する.本研究の目的は,不完全情報かつ多人数のゲームを題材に,モデルを持つ深層強化学習に関する基盤技術を開発することで,AIエージェントの劇的な性能向上をより広い分野で実現することにある.強化学習は,汎用性の高い枠組みで,エージェントと環境の相互作用を扱う.エージェントが「行動」することで「環境」に働きかけ,環境はエージェント行動と他の要因により確率的に「状態」を変え,エージェントは状態の一部を観測し,ときおり報酬(ペナルティを含む)を得る.ここで,どのような状態と行動で報酬が得られるかは既知でないため,エージェントは試行錯誤を通じて環境を理解する必要がある.本研究ではその対象をさらに広げて,現実に近い複雑さを持つ問題の例として,不完全情報かつ多人数のゲームを扱う.不完全情報とは,観測できない状態が存在することであり,多人数とは,状況によって敵にも味方にもなりうる他者が存在することである.問題が複雑になるほど,エージェントの学習は困難になる.そこで本研究では,既存技術である深層学習に加えて,不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを,新たに提唱し,核となる技術の確率を目指す.研究の初年度として,本年度は,エージェントが3人以上の環境に取り組む基礎として1人または2人の不完全情報ゲームにおける強化学習技術の性能を評価した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

初年度としておおむね予想通りの結果が得られた.

Strategy for Future Research Activity

初年度の結果を反映した微調整をしながら,研究計画に沿って勧める.

Causes of Carryover

残額は3万円未満の少額なので,次年度に合わせて使用する.

  • Research Products

    (8 results)

All 2018

All Journal Article (8 results) (of which Peer Reviewed: 8 results,  Open Access: 6 results)

  • [Journal Article] Deep Recurrent Q-Network with Truncated History2018

    • Author(s)
      Hyunwoo Oh and Tomoyuki Kaneko
    • Journal Title

      IEEE Technologies and Applications of Artificial Intelligence

      Volume: - Pages: 34--39

    • DOI

      DOI 10.1109/TAAI.2018.00017

    • Peer Reviewed
  • [Journal Article] Application of Deep Reinforcement Learning in Werewolf Game Agents2018

    • Author(s)
      Tianhe Wang and Tomoyuki Kaneko
    • Journal Title

      IEEE Technologies and Applications of Artificial Intelligence

      Volume: - Pages: 28--33

    • DOI

      10.1109/TAAI.2018.00016

    • Peer Reviewed
  • [Journal Article] Playing the Flappy Bird with Reinforcement Learning Algorithms2018

    • Author(s)
      Hanhua Zhu and Tomoyuki Kaneko
    • Journal Title

      The 23rd Game Programming Workshop

      Volume: - Pages: 153--159

    • Peer Reviewed / Open Access
  • [Journal Article] Counterfactual Regret Minimization for the Board Game Geister2018

    • Author(s)
      Chen Chen and Tomoyuki Kaneko
    • Journal Title

      The 23rd Game Programming Workshop

      Volume: - Pages: 137--144

    • Peer Reviewed / Open Access
  • [Journal Article] Reinforcement Learning with Effective Exploitation of Experiences on Mini-Games of StarCraft II2018

    • Author(s)
      ZheJie Hu and Tomoyuki Kaneko
    • Journal Title

      The 23rd Game Programming Workshop

      Volume: - Pages: 168--174

    • Peer Reviewed / Open Access
  • [Journal Article] ローグライクゲームによる強化学習ベンチマーク環境Rogue-Gymの提案2018

    • Author(s)
      金川裕司 金子 知適
    • Journal Title

      第23回ゲームプログラミングワークショップ

      Volume: - Pages: 120--127

    • Peer Reviewed / Open Access
  • [Journal Article] 人狼エージェントにおける深層Qネットワークの応用2018

    • Author(s)
      王 天鶴 金子 知適
    • Journal Title

      第23回ゲームプログラミングワークショップ

      Volume: - Pages: 16--22

    • Peer Reviewed / Open Access
  • [Journal Article] LSTM の初期状態の学習による DRQN の改善2018

    • Author(s)
      Oh Hyunwoo 金子 知適
    • Journal Title

      第23回ゲームプログラミングワークショップ

      Volume: - Pages: 220--227

    • Peer Reviewed / Open Access

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi