• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習

研究課題

研究課題/領域番号 21K19816
研究種目

挑戦的研究(萌芽)

配分区分基金
審査区分 中区分62:応用情報学およびその関連分野
研究機関東京大学

研究代表者

金子 知適  東京大学, 大学院総合文化研究科, 教授 (00345068)

研究期間 (年度) 2021-07-09 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワードゲームプログラミング
研究開始時の研究の概要

不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを作ることを目指す。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。

研究成果の概要

人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する技術を扱う。本研究では、不完全情報かつ多人数のゲームを題材に、潜在的な環境のモデルを含めて学習する技術を開発し、広い分野でAIエージェントの強化学習技術の適用を容易にするために研究を行った。数理的なモデルの検討と計算機実験による評価を行い、詳細は、学術論文として発表している。

研究成果の学術的意義や社会的意義

強化学習は、最近では LLMs のような自然言語を操る巨大AIモデルの学習まで含む、広いを応用範囲を持つこれからの社会の基盤技術である。この強化学習技術を成熟させ、誰もが使えるようになることは自由な研究ひいては社会活動のために重要と考えられる。AlphaZeroのような2人完全情報ゲームに対象を限定した場合と比べて、現実の諸問題への強化学習技術の応用はさまざまな難しさを含むが、本研究課題はその解消に向けて2人や完全情報という制限を外した際の難しさを扱った。

報告書

(4件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (13件)

すべて 2023 2022 2021

すべて 雑誌論文 (11件) (うち査読あり 11件、 オープンアクセス 4件) 学会発表 (2件)

  • [雑誌論文] DEIR: Efficient and robust exploration through discriminative-model-based episodic intrinsic rewards2023

    • 著者名/発表者名
      Wan and Tang and Tian and Kaneko
    • 雑誌名

      IJCAI

      巻: ijcai.2023 ページ: 4289-4298

    • DOI

      10.24963/ijcai.2023/477

    • 関連する報告書
      2023 実績報告書 2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

    • 著者名/発表者名
      Xu and Kaneko
    • 雑誌名

      IEEE international joint conference on neural networks

      巻: IJCNN54540.2023 ページ: 1-8

    • DOI

      10.1109/ijcnn54540.2023.10191336

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Curiosity-driven exploration for cooperative multi-agent reinforcement learning2023

    • 著者名/発表者名
      Xu and Kaneko
    • 雑誌名

      IEEE ijcnn

      巻: -

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] Learning strategies for imperfect information board games using depth-limited counterfactual regret minimization and belief state2022

    • 著者名/発表者名
      Chen and Kaneko
    • 雑誌名

      IEEE international conference on games

      巻: - ページ: 486-493

    • DOI

      10.1109/cog51982.2022.9893713

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2022

    • 著者名/発表者名
      Yi and Kaneko
    • 雑誌名

      Advances in computer games 2021

      巻: - ページ: 3-13

    • DOI

      10.1007/978-3-031-11488-5_1

    • ISBN
      9783031114878, 9783031114885
    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] 3x3盤面の2048の完全解析と強化学習の研究2022

    • 著者名/発表者名
      山下 金子 中屋敷
    • 雑誌名

      第27回ゲームプログラミングワークショップ

      巻: - ページ: 34-41

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] Improving counterfactual regret minimization agents training in card game cheat using ordered abstraction2021

    • 著者名/発表者名
      C. Yi and T. Kaneko
    • 雑誌名

      Advances in computers and games

      巻: -

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり
  • [雑誌論文] Local coordination in multi-agent reinforcement learning2021

    • 著者名/発表者名
      F. Xu and T. Kaneko
    • 雑誌名

      International conference on technologies and applications of artificial intelligence

      巻: -

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり
  • [雑誌論文] Improve counterfactual regret minimization agents training by setting limitations of numbers of steps in games2021

    • 著者名/発表者名
      C. Yi and T. Kaneko
    • 雑誌名

      26th game programming workshop

      巻: - ページ: 117-123

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Prediction of werewolf players by sentiment analysis of game dialogue in japanese2021

    • 著者名/発表者名
      Y. Sun and T. Kaneko
    • 雑誌名

      26th game programming workshop

      巻: - ページ: 186-191

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] ついたて王手どうぶつしょうぎの提案とCFRによる戦略の学習2021

    • 著者名/発表者名
      中屋敷 金子
    • 雑誌名

      第26回ゲームプログラミングワークショップ

      巻: - ページ: 34-41

    • NAID

      170000185756

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [学会発表] 4x3 盤面の 2048 の完全解析2023

    • 著者名/発表者名
      山下 金子
    • 学会等名
      第28回ゲームプログラミングワークショップ
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 将棋における変則ルール「将棋 81 万」の提案と深層強化学習への応用2023

    • 著者名/発表者名
      出村 金子
    • 学会等名
      第28回ゲームプログラミングワークショップ
    • 関連する報告書
      2023 実績報告書

URL: 

公開日: 2021-07-13   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi