不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
Project/Area Number |
21K19816
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 62:Applied informatics and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
Fiscal Year 2023: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | ゲームプログラミング |
Outline of Research at the Start |
不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを作ることを目指す。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。
|
Outline of Annual Research Achievements |
最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化 と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画に沿って数理的なモデル化と小規模な計算機実験による評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
|
Strategy for Future Research Activity |
研究計画書で計画した方針で研究を進める。
|
Report
(2 results)
Research Products
(10 results)