研究課題/領域番号 |
20K12124
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62040:エンタテインメントおよびゲーム情報学関連
|
研究機関 | 高知工科大学 |
研究代表者 |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | AlphaGo / 深層強化学習 / モンテカルロ木探索 / 確率的ゲーム / 不完全情報ゲーム / 非対称二人ゲーム / ゲームAI / 強化学習 / 多人数ゲーム |
研究開始時の研究の概要 |
Deepmind社によるAlphaGoが囲碁のトップ棋士を破ったニュースは、社会に広く衝撃を与えた。AlphaGo手法は、原理的にはこれまで解決が困難と考えられてきたさまざまな問題への適用が可能である。しかしながら、囲碁などのゲームと現実の問題との間には大きなギャップが存在する。そこで本研究では、「不完全情報」「確率的」の特徴を有するゲームをいくつか選択し、それらに対してAlphaGo手法を適用・評価する。それにより、AlphaGo手法を現実問題に適用する際に遭遇しうる課題を発見し、その解決策を探る。
|
研究成果の概要 |
本研究ではまず,AlphaGo手法で用いられる探索アルゴリズム(PUCT)について,評価関数の違いが全体の性能に及ぼす影響について「オセロ」を題材にして調査した.次に,確率的一人ゲーム「2048」,不完全情報ゲーム「ガイスター」,非対称二人ゲーム「対戦型2048」,多人数不完全情報ゲーム「DouDizhu」を題材にして,それぞれ深層強化学習によるコンピュータプレイヤー開発を行った.とくに「2048」に対しては,AlphaGo手法におけるPolicy関数の必要性の観点から,より軽量な学習手法の適用の可能性について研究した.
|
研究成果の学術的意義や社会的意義 |
AlphaGo手法 (後継であるAlphaGo Zero, AlphaZero, MuZeroを含む) は,チェス・将棋・囲碁のような二人完全情報ゲームにおいて人間を超える強さのプレイヤーを実現した.本研究は,不完全情報ゲームや確率的ゲームといったより困難なゲームに対してAlphaGo手法(または一般に深層強化学習)を適用する上で遭遇しうる問題点をいくつか明らかにした.特に,確率的ゲーム「2048」における深層強化学習において,確率的要素が学習を悪化させることを明らかにし,その対応方法につながる課題の発見に至った.
|