• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

Research Project

Project/Area Number 18K19832
Research InstitutionThe University of Tokyo

Principal Investigator

金子 知適  東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

Project Period (FY) 2018-06-29 – 2021-03-31
Keywordsゲームプログラミング
Outline of Annual Research Achievements

人工知能分野の強化学習では,環境の中で自律的に行動するAIエージェントを想定し,そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する.本研究の目的は,不完全情報かつ多人数のゲームを題材に,モデルを持つ深層強化学習に関する基盤技術を開発することで,AIエージェントの劇的な性能向上をより広い分野で実現することにある.強化学習は,汎用性の高い枠組みで,エージェントと環境の相互作用を扱う.エージェントが「行動」することで「環境」に働きかけ,環境はエージェント行動と他の要因により確率的に「状態」を変え,エージェントは状態の一部を観測し,ときおり報酬(ペナルティを含む)を得る.ここで,どのような状態と行動で報酬が得られるかは既知でないため,エージェントは試行錯誤を通じて環境を理解する必要がある.本研究ではその対象をさらに広げて,現実に近い複雑さを持つ問題の例として,不完全情報かつ多人数のゲームを扱う.不完全情報とは,観測できない状態が存在することであり,多人数とは,状況によって敵にも味方にもなりうる他者が存在することである.問題が複雑になるほど,エージェントの学習は困難になる.そこで本研究では,既存技術である深層学習に加えて,不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを,新たに提唱し,核となる技術の確率を目指す.研究の二年度目として,本年度は昨年に引き続き,プレイヤが1人または2人の不完全情報ゲームにおける強化学習技術の性能を評価したうえで,エージェントが3人以上の環境に取り組んだ.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

初年度の成果を踏まえて,二年度目としておおむね予想通りの結果が得られた.

Strategy for Future Research Activity

初年度,二年度までの結果を反映して微調整をしながら,研究計画に沿ってマルチエージェント環境での強化学習の研究を進める.

Causes of Carryover

全体の5%程度なので,物価変動や状況に応じた適応の範囲である.残額は研究計画に沿って適切に利用する.

  • Research Products

    (16 results)

All 2019

All Journal Article (6 results) (of which Peer Reviewed: 6 results) Presentation (10 results)

  • [Journal Article] Computer Shogi Tournaments and Techniques2019

    • Author(s)
      Tomoyuki Kaneko and Takenobu Takizawa
    • Journal Title

      IEEE Transactions on Games

      Volume: 11(3) Pages: 267-274

    • DOI

      10.1109/TG.2019.2939259

    • Peer Reviewed
  • [Journal Article] RankNet for evaluation functions of the game of Go2019

    • Author(s)
      Yusaku Mandai and Tomoyuki Kaneko
    • Journal Title

      ICGA Journal

      Volume: 41(2) Pages: 78-91

    • DOI

      doi:10.3233/ICG-190108

    • Peer Reviewed
  • [Journal Article] Rogue-Gym: A New Challenge for Generalization in Reinforcement Learning2019

    • Author(s)
      Yuji Kanagawa and Tomoyuki Kaneko
    • Journal Title

      IEEE Conference on Games

      Volume: 19013855 Pages: 1-8

    • DOI

      10.1109/CIG.2019.8848075

    • Peer Reviewed
  • [Journal Article] Deep Residual Attention Reinforcement Learning2019

    • Author(s)
      Hanhua Zhu and Tomoyuki Kaneko
    • Journal Title

      International Conference on Technologies and Applications of Artificial Intelligence

      Volume: 19279615 Pages: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959896

    • Peer Reviewed
  • [Journal Article] Application of Deep-RL with Sample-Efficient Method in Mini-games of StarCraft II2019

    • Author(s)
      Zhejie Hu and Tomoyuki Kaneko
    • Journal Title

      International Conference on Technologies and Applications of Artificial Intelligence

      Volume: 19279598 Pages: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959866

    • Peer Reviewed
  • [Journal Article] Acquiring Strategies for the Board Game Geister by Regret Minimization2019

    • Author(s)
      Chen Chen and Tomoyuki Kaneko
    • Journal Title

      International Conference on Technologies and Applications of Artificial Intelligence

      Volume: 19279608 Pages: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959878

    • Peer Reviewed
  • [Presentation] Utilizing History Information in Acquiring Strategies for Board Game Geister by Deep Counterfactual Regret Minimization2019

    • Author(s)
      Chen Chen and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] An Extension of Counterfactual Regret Minimization for Multiplayer Card Games2019

    • Author(s)
      Yu Cao and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] Performance of Counterfactual Regret Minimization with Self-Confirming Equilibrium2019

    • Author(s)
      Cheng Yi and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] どうぶつしょうぎを用いた AlphaZero の手法の調査2019

    • Author(s)
      中屋敷 太一 金子 知適
    • Organizer
      第24回ゲームプログラミングワークショップ
  • [Presentation] スタークラフト II のミニゲームにおけるマルチタスク強化学習2019

    • Author(s)
      徐 凡超 金子 知適
    • Organizer
      第24回ゲームプログラミングワークショップ
  • [Presentation] Enhancing Sample Efficiency of Deep Reinforcement Learning to Master the Mini-games of StarCraft II2019

    • Author(s)
      ZheJie Hu and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] Counterfactual Regret Minimisation for playing the multiplayer bluffing dice game Dudo2019

    • Author(s)
      Quentin Gendre and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] Training Agents with Long-range Information in Deep Reinforcement Learning2019

    • Author(s)
      Hanhua Zhu and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] Back Prediction in the Game of Go2019

    • Author(s)
      Tang Jiachen and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop
  • [Presentation] Improving Mahjong Agent by Predicting Types of Yaku2019

    • Author(s)
      Long Honghai and Tomoyuki Kaneko
    • Organizer
      The 24th Game Programming Workshop

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi