本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。 囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。 熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。 推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合的な学習フレームワークを構築する。 抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。 思考ゲーム、特に囲碁、将棋、チェスなどの二人完全情報ゲームでは、ここ数年の AlphaGo から AlphaZero までの研究で、既存手法で作成された AI プレイヤや人間の強さを越えて、大きな技術の進歩があった。 本応募課題ではそれらの成果を踏まえて、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行っている。 全体の計画したなかで世界を抽象的に理解するモデルに関して、エントロピー最大化強化学習を敵対的他者がいる環境に適用する技術と、経験を積むべき優先度に関する新たなモデルに関しては、これまでに十分な成果が得られている。
|