研究課題/領域番号 |
21K19816
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分62:応用情報学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | ゲームプログラミング |
研究開始時の研究の概要 |
不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを作ることを目指す。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。
|
研究実績の概要 |
最大人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する手法を扱う。本研究の目的は、不完全情報かつ多人数のゲームを題材に、モデルを持つ深層強化学習に関する基盤技術を開発し、より広い分野においてAIエージェントの性能向上を実現することである。本研究では深層強化学習の扱う対象を広げるために、現実に近い複雑さを持つ問題の例として、不完全情報かつ多人数のゲームを扱う。不完全情報とは、観測できない状態が存在することであり、多人数とは、状況によって敵にも味方にもなりうる他者が存在することである。従来技術では他者を全て環境の一部とみなして妥協していたところを、不完全情報かつ多人数を扱うことに適したモデルの獲得と確率的な推論を行う学習フレームワークを実現する。二人完全情報ゲームで成果をあげた Alpha Zero と比較すると、不完全情報のために相手に手を読まれる度合いを考慮した,数理的なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化 と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。現在までに、研究計画に沿って数理的な手法の検討と様々なモデルでの計算機実験による性能評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画に沿って数理的なモデル化と小規模な計算機実験による評価を進めた。とくに、信念状態で不完全な情報を統合して表現する手法とチームでの協調を効率的に学ぶ手法は国際会議ですでに採録されている。
|
今後の研究の推進方策 |
研究計画書で計画した方針で研究を進める。
|