2023 Fiscal Year Annual Research Report
不完全情報かつ多人数環境で合理的均衡戦略を求める深層強化学習
Project/Area Number |
21K19816
|
Research Institution | The University of Tokyo |
Principal Investigator |
金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
Project Period (FY) |
2021-07-09 – 2024-03-31
|
Keywords | ゲームプログラミング |
Outline of Annual Research Achievements |
人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。学習アルゴリズムの性能を評価する環境として、ゲームをプレイするエージェントを対象とすることは広く行われている。本課題では、 不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを目指して研究を行った。不完全情報とは観測 できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを構築し性能向上を目指した。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮したモデル化と探索が重要である。ポーカーで成果を上げた Counterfactual Regret の最小化と比較すると、3人以上の環境での評価と重要な範囲に絞って強化学習を行うことによる計算コストを軽減に重点がおかれている。複数の環境においてそれぞれ多様な振る舞いを個性として持つエージェント群を強化学習をベースに作成し、協調と個別の目標の達成度合いに関する数理的な性質の検討と、様々なモデルでの計算機実験により効果の確認を行った。
|