Development a general-purpose imperfect information game AI that surpasses humans
Project/Area Number |
22K12339
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
橋本 剛 松江工業高等専門学校, 情報工学科, 教授 (40420335)
|
Co-Investigator(Kenkyū-buntansha) |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2026: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 不完全情報ゲーム / ガイスター / UCT / AlphaZero / Chinese dark chess / Computer Olympiad / ポケモン / 格闘ゲーム / 汎用的AI / BERT / 方策勾配法 |
Outline of Research at the Start |
将棋や囲碁など、二人完全情報ゲームの研究は盛んに行われたが、不完全情報ゲームの研究はまだ多くなく、ゲームAI研究のターゲットとして注目されている。本研究は、不完全情報ゲームで人間を超えるAIが作れる汎用的なシステムの作成を目標とする。AIは強化学習と探索を軸に開発する。不完全情報ゲームでは相手のくせを見抜くことが本質的に重要と考え、履歴をキーワードにした手法開発を目指し、自然言語処理の手法を参考に開発する。主な題材とするガイスターで人間を超えるAIが作成できたら他の不完全情報ゲームで汎用性を確認し、最終的にはAlphaZeroのような汎用性の高いシステムを作り広く公開したい。
|
Outline of Annual Research Achievements |
不完全情報ゲーム研究の題材として、ガイスターを中心に開発を行った。まず、モンテカルロ木探索の代表的な手法であるUCT探索の実装と研究を行った。完全情報ゲームの探索方法を不完全情報ゲームに用いると戦略融合の影響を受ける。既存手法では戦略融合の悪影響を受けやすいが、他の方法はこれまで検討されていない。そこで、探索内部で不完全情報を扱う仕組みを新たにいくつか提案し、対戦実験によりその性能を明らかにした。また、近年ガイスター研究で成果を上げた、方策勾配法を用いた評価方法を探索に用いる手法が開発されていないので、UCT探索に方策勾配法で求まる行動確率を用いる手法をいくつか提案し、対戦実験によってそれらの性能を評価した。実験結果から、優勝したAI を上回る強さが確認できた。 ガイスター以外の不完全情報ゲーム研究では、AlphaZeroを不完全情報ゲームのChinese dark chess(CDC)とEinStein Wurfelt Nicht!(EWN)に適用し、パラメータ設定が学習に与える影響を調べた。具体的には局面を全列挙するlookup tableを用いたAlphaZeroに、完全解析された2×4 CDCと3×3 EWNと3×4 EWNを学習させ、その結果を理論勝率と最適戦略と比較した。実験の結果から、最善手を学習できるパラメータ設定の範囲が広いことがわかった。2×4 CDCの結果に基づき、通常のサイズの4×8 CDCの学習を試した。この手法を用いたAIが2022年7月に開催されたComputer Olympiad CDC大会で優勝した。 また、人間を超えることを考えると、人間がどうプレイするかを調べることも重要であると考え、多腕バンディット問題と格闘ゲームとポケモン対戦において、認知バイアスと読み合いに関連する研究も行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通りガイスターを中心に不完全情報ゲームの開発と研究を進められている。ガイスター研究では、モンテカルロ木探索のうち最もよく使われるUCT探索を用いる際に問題となる不完全情報の扱いについて新たな手法を提案し、性能比較も行うことができた。また、方策勾配法を用いて得られた行動確率をUCT探索に用いる手法も提案し、実装と比較実験を行い、予定していた内容で開発が順調に進められた。 自然言語の手法を不完全情報ゲームに取り入れる研究はすでに着手しており、次年度か3年目には成果を公表できるところまでいけそうである。 また、ガイスター以外の研究では当初予定になかった複数の不完全情報ゲームで開発を進められ、AI大会で優勝するなど早くも成果を上げることができた。
|
Strategy for Future Research Activity |
今後は自然言語の手法を不完全情報ゲームに活かす新たな手法の開発に注力する。ガイスター開発では、方策勾配法に対戦履歴を導入する方法を検討し、RNN, BERTなど自然言語処理で使われる方法との融合を模索していく。探索については、ISMCTSとAlphaZeroを融合する 手法の検討を分担者中心に進めていく。また、ISMCTSへの自然言語処理手法導入方法を代表者中心に検討する。その成果の目安として、AI大会優勝を目指して開発を進める。 ガイスター以外では、小盤面のCDCとEWNにおいてAlphaZeroの結果に基づき、AlphaZeroの汎用化版であるMuZero、及びそれらの改良版であるGumbel AlphaZero・MuZeroの適用性を調べ、必要な改良を行う。また、普通のサイズのCDCとEWNにも適用する
|
Report
(1 results)
Research Products
(8 results)