• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

不完全情報かつ多人数参加環境に適した構造を持つ深層強化学習手法の開発

研究課題

研究課題/領域番号 18K19832
研究機関東京大学

研究代表者

金子 知適  東京大学, 大学院情報学環・学際情報学府, 准教授 (00345068)

研究期間 (年度) 2018-06-29 – 2021-03-31
キーワードゲームプログラミング
研究実績の概要

人工知能分野の強化学習では,環境の中で自律的に行動するAIエージェントを想定し,そのエージェントが試行錯誤を通じて振る舞いを学習する技術を研究する.本研究の目的は,不完全情報かつ多人数のゲームを題材に,モデルを持つ深層強化学習に関する基盤技術を開発することで,AIエージェントの劇的な性能向上をより広い分野で実現することにある.強化学習は,汎用性の高い枠組みで,エージェントと環境の相互作用を扱う.エージェントが「行動」することで「環境」に働きかけ,環境はエージェント行動と他の要因により確率的に「状態」を変え,エージェントは状態の一部を観測し,ときおり報酬(ペナルティを含む)を得る.ここで,どのような状態と行動で報酬が得られるかは既知でないため,エージェントは試行錯誤を通じて環境を理解する必要がある.本研究ではその対象をさらに広げて,現実に近い複雑さを持つ問題の例として,不完全情報かつ多人数のゲームを扱う.不完全情報とは,観測できない状態が存在することであり,多人数とは,状況によって敵にも味方にもなりうる他者が存在することである.問題が複雑になるほど,エージェントの学習は困難になる.そこで本研究では,既存技術である深層学習に加えて,不完全情報かつ多人数を扱うことに適したモデルの獲得と精密化を行う学習フレームワークを,新たに提唱し,核となる技術の確率を目指す.研究の二年度目として,本年度は昨年に引き続き,プレイヤが1人または2人の不完全情報ゲームにおける強化学習技術の性能を評価したうえで,エージェントが3人以上の環境に取り組んだ.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

初年度の成果を踏まえて,二年度目としておおむね予想通りの結果が得られた.

今後の研究の推進方策

初年度,二年度までの結果を反映して微調整をしながら,研究計画に沿ってマルチエージェント環境での強化学習の研究を進める.

次年度使用額が生じた理由

全体の5%程度なので,物価変動や状況に応じた適応の範囲である.残額は研究計画に沿って適切に利用する.

  • 研究成果

    (16件)

すべて 2019

すべて 雑誌論文 (6件) (うち査読あり 6件) 学会発表 (10件)

  • [雑誌論文] Computer Shogi Tournaments and Techniques2019

    • 著者名/発表者名
      Tomoyuki Kaneko and Takenobu Takizawa
    • 雑誌名

      IEEE Transactions on Games

      巻: 11(3) ページ: 267-274

    • DOI

      10.1109/TG.2019.2939259

    • 査読あり
  • [雑誌論文] RankNet for evaluation functions of the game of Go2019

    • 著者名/発表者名
      Yusaku Mandai and Tomoyuki Kaneko
    • 雑誌名

      ICGA Journal

      巻: 41(2) ページ: 78-91

    • DOI

      doi:10.3233/ICG-190108

    • 査読あり
  • [雑誌論文] Rogue-Gym: A New Challenge for Generalization in Reinforcement Learning2019

    • 著者名/発表者名
      Yuji Kanagawa and Tomoyuki Kaneko
    • 雑誌名

      IEEE Conference on Games

      巻: 19013855 ページ: 1-8

    • DOI

      10.1109/CIG.2019.8848075

    • 査読あり
  • [雑誌論文] Deep Residual Attention Reinforcement Learning2019

    • 著者名/発表者名
      Hanhua Zhu and Tomoyuki Kaneko
    • 雑誌名

      International Conference on Technologies and Applications of Artificial Intelligence

      巻: 19279615 ページ: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959896

    • 査読あり
  • [雑誌論文] Application of Deep-RL with Sample-Efficient Method in Mini-games of StarCraft II2019

    • 著者名/発表者名
      Zhejie Hu and Tomoyuki Kaneko
    • 雑誌名

      International Conference on Technologies and Applications of Artificial Intelligence

      巻: 19279598 ページ: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959866

    • 査読あり
  • [雑誌論文] Acquiring Strategies for the Board Game Geister by Regret Minimization2019

    • 著者名/発表者名
      Chen Chen and Tomoyuki Kaneko
    • 雑誌名

      International Conference on Technologies and Applications of Artificial Intelligence

      巻: 19279608 ページ: 1-6

    • DOI

      10.1109/TAAI48200.2019.8959878

    • 査読あり
  • [学会発表] Utilizing History Information in Acquiring Strategies for Board Game Geister by Deep Counterfactual Regret Minimization2019

    • 著者名/発表者名
      Chen Chen and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] An Extension of Counterfactual Regret Minimization for Multiplayer Card Games2019

    • 著者名/発表者名
      Yu Cao and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] Performance of Counterfactual Regret Minimization with Self-Confirming Equilibrium2019

    • 著者名/発表者名
      Cheng Yi and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] どうぶつしょうぎを用いた AlphaZero の手法の調査2019

    • 著者名/発表者名
      中屋敷 太一 金子 知適
    • 学会等名
      第24回ゲームプログラミングワークショップ
  • [学会発表] スタークラフト II のミニゲームにおけるマルチタスク強化学習2019

    • 著者名/発表者名
      徐 凡超 金子 知適
    • 学会等名
      第24回ゲームプログラミングワークショップ
  • [学会発表] Enhancing Sample Efficiency of Deep Reinforcement Learning to Master the Mini-games of StarCraft II2019

    • 著者名/発表者名
      ZheJie Hu and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] Counterfactual Regret Minimisation for playing the multiplayer bluffing dice game Dudo2019

    • 著者名/発表者名
      Quentin Gendre and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] Training Agents with Long-range Information in Deep Reinforcement Learning2019

    • 著者名/発表者名
      Hanhua Zhu and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] Back Prediction in the Game of Go2019

    • 著者名/発表者名
      Tang Jiachen and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop
  • [学会発表] Improving Mahjong Agent by Predicting Types of Yaku2019

    • 著者名/発表者名
      Long Honghai and Tomoyuki Kaneko
    • 学会等名
      The 24th Game Programming Workshop

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi