研究課題/領域番号 |
21H03570
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62040:エンタテインメントおよびゲーム情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
金子 知適 東京大学, 大学院総合文化研究科, 教授 (00345068)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2022年度: 2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | ゲームプログラミング |
研究開始時の研究の概要 |
本応募課題では、思考ゲームを題材に、深層強化学習の汎用性と効率向上の研究を行う。囲碁、将棋、チェスなどの思考ゲームは AI の到達度を測る試金石として、また AlphaGo が登場して以降は深層強化学習の題材としても注目を集めている。熟慮して判断の質を高めるためには、エージェントが確率的な推論や思考実験をできるような世界のモデルが必要となる。推論に適した世界のモデルの学習のために、抽象化と多様性を技術的な核に総合 的な学習フレームワークを構築する。抽象的な表現で世界を学ぶことで汎用性と学習効率を高め、環境とエージェントの多様性に適切な抽象度を学ぶ。
|
研究成果の概要 |
思考ゲームを題材に、AlphaZero のように知識無しの状態から試行錯誤を通じてエージェントに適切な振る舞いを自発的に身につけさせる強化学習の研究を進めた。特に、将棋、囲碁、2048において、理論的な数理モデルの検討と計算機プログラムとしての実装、計算機実験による性能の評価を行った。成果の一部はオープンソースのプログラムと事前学習済みモデルとしてすでに公開済みであり、残りの部分も今後整備を進めて公開する予定である。
|
研究成果の学術的意義や社会的意義 |
強化学習は、教師あり学習で必要となる教師データを必要としない代わりに、試行錯誤の経験を積むための計算機資源を必要とする。この研究の遠い目標は、高性能なAIエージェントを少数の巨大組織のみが開発できる状況を変え、個人が自分自身のハードウェアで自分だけのエージェントを持てるようにすることにある。ゲームという限られた対象限定ではあるが、本研究は、一般的なハードウェアで十分に強いエージェントを作成可能となったことに貢献している。
|