• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

Research Project

Project/Area Number 21K19816
Research InstitutionThe University of Tokyo

Principal Investigator

金子 知適  東京大学, 大学院総合文化研究科, 准教授 (00345068)

Project Period (FY) 2021-07-09 – 2024-03-31
Keywordsゲームプログラミング
Outline of Annual Research Achievements

人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化を高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。初年度は研究計画に沿って、数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法は国際会議ですでに採録されている。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究計画に沿って数理的なモデル化と小規模な計算機実験による評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法は国際会議ですでに採録されている。

Strategy for Future Research Activity

研究計画に沿って進める。

Causes of Carryover

旅費の使用機会がなかったために次年度使用額が生じたが、全体の2%程度であり次年度予算と合わせて適正に執行する

  • Research Products

    (5 results)

All 2021

All Journal Article (5 results) (of which Peer Reviewed: 5 results,  Open Access: 3 results)

  • [Journal Article] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2021

    • Author(s)
      C. Yi and T. Kaneko
    • Journal Title

      Advances in computers and games

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Local coordination in multi-agent reinforcement learning2021

    • Author(s)
      F. Xu and T. Kaneko
    • Journal Title

      International conference on technologies and applications of artificial intelligence

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games2021

    • Author(s)
      C. Yi and T. Kaneko
    • Journal Title

      26th game programming workshop

      Volume: - Pages: 117-123

    • Peer Reviewed / Open Access
  • [Journal Article] Prediction of werewolf players by sentiment analysis of game dialogue in japanese2021

    • Author(s)
      Y. Sun and T. Kaneko
    • Journal Title

      26th game programming workshop

      Volume: - Pages: 186-191

    • Peer Reviewed / Open Access
  • [Journal Article] ついたて王手どうぶつしょうぎの提案とCFRによる戦略の学習2021

    • Author(s)
      中屋敷 金子
    • Journal Title

      第26回ゲームプログラミングワークショップ

      Volume: - Pages: 34-41

    • Peer Reviewed / Open Access

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi