2021 Fiscal Year Annual Research Report
世界モデルの獲得と多様な戦略の探索による深層強化学習の汎用性向上
Project/Area Number |
21H03570
|
Research Institution | The University of Tokyo |
Principal Investigator |
金子 知適 東京大学, 大学院総合文化研究科, 准教授 (00345068)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | ゲームプログラミング |
Outline of Annual Research Achievements |
本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度 を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、 エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様 性を技術的な核に総合 的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェント の多様性に適切な抽象度を学ぶ。 思考ゲーム、特に囲碁、将棋、チェスなどの二人完全情報ゲームでは、ここ数年のAlphaGoからAlphaZero までの研究で、既存手法で作成されたAIプレイヤや人間の強さを越えて、大きな技術の進歩があった。本応募課題ではそれらの成果を踏まえて、思考ゲームを題材に、深層強化学 習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以 降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるよ うな世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合 的な学習フレームワークを 構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層強化学習において、抽象化と多様性を扱う技術を核に手法のプロトタイプを作成し、理論的検証と予備的な計算機実験を行った。全体として多様な環境で多様なエージェントを作成するフレームワークを目指すが、今年度は必要となる複数の技術について個別に切り出して評価した。そのうちエントロピー最大化強化学習を敵対的他者がいる環境に適用する技術については、国際会議で発表済みである。他に、複数の技術について投稿準備中である。
|
Strategy for Future Research Activity |
研究計画書で計画した方針で研究を進める。
|
Research Products
(5 results)