研究課題/領域番号 |
22K12339
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
橋本 剛 松江工業高等専門学校, 情報工学科, 教授 (40420335)
|
研究分担者 |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
キーワード | 不完全情報ゲーム / ガイスター / UCT / AlphaZero / Chinese dark chess / Computer Olympiad / ポケモン / 格闘ゲーム |
研究実績の概要 |
不完全情報ゲーム研究の題材として、ガイスターを中心に開発を行った。まず、モンテカルロ木探索の代表的な手法であるUCT探索の実装と研究を行った。完全情報ゲームの探索方法を不完全情報ゲームに用いると戦略融合の影響を受ける。既存手法では戦略融合の悪影響を受けやすいが、他の方法はこれまで検討されていない。そこで、探索内部で不完全情報を扱う仕組みを新たにいくつか提案し、対戦実験によりその性能を明らかにした。また、近年ガイスター研究で成果を上げた、方策勾配法を用いた評価方法を探索に用いる手法が開発されていないので、UCT探索に方策勾配法で求まる行動確率を用いる手法をいくつか提案し、対戦実験によってそれらの性能を評価した。実験結果から、優勝したAI を上回る強さが確認できた。 ガイスター以外の不完全情報ゲーム研究では、AlphaZeroを不完全情報ゲームのChinese dark chess(CDC)とEinStein Wurfelt Nicht!(EWN)に適用し、パラメータ設定が学習に与える影響を調べた。具体的には局面を全列挙するlookup tableを用いたAlphaZeroに、完全解析された2×4 CDCと3×3 EWNと3×4 EWNを学習させ、その結果を理論勝率と最適戦略と比較した。実験の結果から、最善手を学習できるパラメータ設定の範囲が広いことがわかった。2×4 CDCの結果に基づき、通常のサイズの4×8 CDCの学習を試した。この手法を用いたAIが2022年7月に開催されたComputer Olympiad CDC大会で優勝した。 また、人間を超えることを考えると、人間がどうプレイするかを調べることも重要であると考え、多腕バンディット問題と格闘ゲームとポケモン対戦において、認知バイアスと読み合いに関連する研究も行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通りガイスターを中心に不完全情報ゲームの開発と研究を進められている。ガイスター研究では、モンテカルロ木探索のうち最もよく使われるUCT探索を用いる際に問題となる不完全情報の扱いについて新たな手法を提案し、性能比較も行うことができた。また、方策勾配法を用いて得られた行動確率をUCT探索に用いる手法も提案し、実装と比較実験を行い、予定していた内容で開発が順調に進められた。 自然言語の手法を不完全情報ゲームに取り入れる研究はすでに着手しており、次年度か3年目には成果を公表できるところまでいけそうである。 また、ガイスター以外の研究では当初予定になかった複数の不完全情報ゲームで開発を進められ、AI大会で優勝するなど早くも成果を上げることができた。
|
今後の研究の推進方策 |
今後は自然言語の手法を不完全情報ゲームに活かす新たな手法の開発に注力する。ガイスター開発では、方策勾配法に対戦履歴を導入する方法を検討し、RNN, BERTなど自然言語処理で使われる方法との融合を模索していく。探索については、ISMCTSとAlphaZeroを融合する 手法の検討を分担者中心に進めていく。また、ISMCTSへの自然言語処理手法導入方法を代表者中心に検討する。その成果の目安として、AI大会優勝を目指して開発を進める。 ガイスター以外では、小盤面のCDCとEWNにおいてAlphaZeroの結果に基づき、AlphaZeroの汎用化版であるMuZero、及びそれらの改良版であるGumbel AlphaZero・MuZeroの適用性を調べ、必要な改良を行う。また、普通のサイズのCDCとEWNにも適用する
|
次年度使用額が生じた理由 |
旅費については、当初参加予定であった国際会議がコロナウィルスの影響でオンライン参加となり、費用が発生しなかった。購入予定であったPCは原材料の高騰により購入ができず、次年度に価格が落ち着いてから購入することとした。
|