研究課題
基盤研究(B)
思考ゲームを題材に、AlphaZero のように知識無しの状態から試行錯誤を通じてエージェントに適切な振る舞いを自発的に身につけさせる強化学習の研究を進めた。特に、将棋、囲碁、2048において、理論的な数理モデルの検討と計算機プログラムとしての実装、計算機実験による性能の評価を行った。成果の一部はオープンソースのプログラムと事前学習済みモデルとしてすでに公開済みであり、残りの部分も今後整備を進めて公開する予定である。
ゲームプログラミング
強化学習は、教師あり学習で必要となる教師データを必要としない代わりに、試行錯誤の経験を積むための計算機資源を必要とする。この研究の遠い目標は、高性能なAIエージェントを少数の巨大組織のみが開発できる状況を変え、個人が自分自身のハードウェアで自分だけのエージェントを持てるようにすることにある。ゲームという限られた対象限定ではあるが、本研究は、一般的なハードウェアで十分に強いエージェントを作成可能となったことに貢献している。