研究課題/領域番号 |
20K12124
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62040:エンタテインメントおよびゲーム情報学関連
|
研究機関 | 高知工科大学 |
研究代表者 |
松崎 公紀 高知工科大学, 情報学群, 教授 (30401243)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | AlphaGo / 強化学習 / モンテカルロ木探索 / 確率的ゲーム / 非対称二人ゲーム / 不完全情報ゲーム / 多人数ゲーム |
研究開始時の研究の概要 |
Deepmind社によるAlphaGoが囲碁のトップ棋士を破ったニュースは、社会に広く衝撃を与えた。AlphaGo手法は、原理的にはこれまで解決が困難と考えられてきたさまざまな問題への適用が可能である。しかしながら、囲碁などのゲームと現実の問題との間には大きなギャップが存在する。そこで本研究では、「不完全情報」「確率的」の特徴を有するゲームをいくつか選択し、それらに対してAlphaGo手法を適用・評価する。それにより、AlphaGo手法を現実問題に適用する際に遭遇しうる課題を発見し、その解決策を探る。
|
研究実績の概要 |
本研究は,AlphaGo (およびその後継であるAlphaGo Zero, AlphaZeroを含む) 手法をより広いゲームに適用する際に起こる問題点を明らかにし,それを改良することを目指す研究である. 本年度は主に,(1) 確率的一人ゲーム「2048」のニューラルネットワーク構造の改良,(2) 強化学習手法「Monte-Carlo Softmax 探索」の2048への適用と評価,(3) 非対称二人ゲーム「対戦型2048」におけるプレイヤの改良と比較,の3点について研究を進めた. (1) これまでに,局所的特徴を扱うのに優れる畳み込みニューラルネットワークを用いてプレイヤを作成してきた.本研究項目では,大域的特徴を与えるネットワークを追加したネットワークを設計し,スコアが改善することを示した.本成果は,国際会議 IEEE CoG 2022 にて発表した. (2) AlphaGo 手法は,方策(ポリシー)と値(バリュー)の2つを同時に学習する強化学習手法である.それに対し,値(バリュー)のみを学習する Monte-Carlo Softmax Search アルゴリズムを2048に適用し,評価を行った.その結果,モンテカルロ木探索における評価値の利用方法の工夫が性能に大きく影響すること,モンテカルロ木探索によって得られる値をそのまま学習に用いると学習が進まないことなどを知見として得た.前者は国際会議 TAAI 2022に,後者は国内ワークショップで発表した. (3) 非対称二人ゲーム「対戦型2048」に対し,Nタプルネットワーク/ニューラルネットワークおよびαβ探索を用いるプレイヤを実装し,相互対戦により評価を行った.その結果,「2048」において優れるNタプルネットワークが「対戦型2048」では劣る,という興味深い結果を得た.国内ワークショップ,国内研究会にて発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初予定していた研究の進め方に従って取り組んできている.新型コロナウイルスの影響により国際会議への参加が難しかったことを受けて,一部の成果については次年度に投稿・発表することを目指している.
|
今後の研究の推進方策 |
次年度も,本年度の研究に引き続き,大きく3つの観点で研究を進める. (1) PUCT アルゴリズムの性能評価,(2) 確率的一人ゲーム「2048」に対するニューラルネットワークと学習方法,(3) 不完全情報ゲーム「DouDizhu」のプレイヤへの学習の適用
|