研究課題/領域番号 |
21K19816
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分62:応用情報学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
研究期間 (年度) |
2021-07-09 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2023年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | ゲームプログラミング |
研究開始時の研究の概要 |
不完全情報かつ多人数のゲームという協調や裏切りもある複雑な環境で、賢く振る舞うエージェントを作ることを目指す。不完全情報とは観測できない状態が存在することで、多人数とは敵にも味方にもなりうる他者が存在することである。二人完全情報ゲームで成果をあげた Alpha Zeroと比較すると、不完全情報のために相手に手を読まれる度合いを考慮した高度なモデル化と探索を行う。ポーカーで成果を上げた Counterfactual Regret最小化と比較すると、重要な範囲に絞って強化学習を行うことで計算コストを軽減し、より大きな問題に適用可能とする。
|
研究成果の概要 |
人工知能分野の強化学習では、環境の中で自律的に行動するAIエージェントを想定し、そのエージェントが試行錯誤を通じて振る舞いを学習する技術を扱う。本研究では、不完全情報かつ多人数のゲームを題材に、潜在的な環境のモデルを含めて学習する技術を開発し、広い分野でAIエージェントの強化学習技術の適用を容易にするために研究を行った。数理的なモデルの検討と計算機実験による評価を行い、詳細は、学術論文として発表している。
|
研究成果の学術的意義や社会的意義 |
強化学習は、最近では LLMs のような自然言語を操る巨大AIモデルの学習まで含む、広いを応用範囲を持つこれからの社会の基盤技術である。この強化学習技術を成熟させ、誰もが使えるようになることは自由な研究ひいては社会活動のために重要と考えられる。AlphaZeroのような2人完全情報ゲームに対象を限定した場合と比べて、現実の諸問題への強化学習技術の応用はさまざまな難しさを含むが、本研究課題はその解消に向けて2人や完全情報という制限を外した際の難しさを扱った。
|