Project/Area Number |
22K12339
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62040:Entertainment and game informatics-related
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
橋本 剛 松江工業高等専門学校, 情報工学科, 教授 (40420335)
|
Co-Investigator(Kenkyū-buntansha) |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2026: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 不完全情報ゲーム / ガイスター / Transformer / TGEM / ドミニオン / LDM / Gumbel MuZero / EinStein Wurfelt Nicht! / UCT / AlphaZero / Chinese dark chess / Computer Olympiad / ポケモン / 格闘ゲーム / 汎用的AI / BERT / 方策勾配法 |
Outline of Research at the Start |
将棋や囲碁など、二人完全情報ゲームの研究は盛んに行われたが、不完全情報ゲームの研究はまだ多くなく、ゲームAI研究のターゲットとして注目されている。本研究は、不完全情報ゲームで人間を超えるAIが作れる汎用的なシステムの作成を目標とする。AIは強化学習と探索を軸に開発する。不完全情報ゲームでは相手のくせを見抜くことが本質的に重要と考え、履歴をキーワードにした手法開発を目指し、自然言語処理の手法を参考に開発する。主な題材とするガイスターで人間を超えるAIが作成できたら他の不完全情報ゲームで汎用性を確認し、最終的にはAlphaZeroのような汎用性の高いシステムを作り広く公開したい。
|
Outline of Annual Research Achievements |
不完全情報ゲーム研究の題材として、今年度もガイスターを中心に開発を行い、自然言語を使って相手の「くせ」を考慮するAIの開発方法を検討した。まずは自然言語処理モデル Transformerを用いる手法を開発した。ガイスターは相手駒の種類が分からない不完全情報ゲームなので、Transformerを相手駒種推定に使うことにした。開発した TGEM は自駒の種類と行動履歴を一文として入力し、相手駒種を推定するモデルである。実験では、ランダムに相手駒種を推定する場合に比べて高い精度を出すことができた。 また、複雑な不完全情報ゲームであるドミニオンを題材とした深層強化学習の研究にも取り組んだ。ドミニオンはゲームごとに異なる種類のカードを組み合わせるルールのためすべてを事前に学習することが難しい。そこで、未知の場を学習する際に既存の学習した場の中から類似性の高い場の学習モデルを用いることで学習時間を大幅に短縮させる手法を試した。強化学習では少しの違いを理解させ効率的に学習を続けるのが難しいが、変更するカードは効果のみを変更することにより学習モデルにあたかもこれまでと同じ場を学習しているかのように錯覚させる Learning by Deceive Method(LDM)を提案した。LDM を用いた実験により大幅な学習時間短縮が確認できた。 1人用確率ゲーム2048にGumbel MuZeroという手法を適用し、木探索のシミュレーション回数が少ない方が学習の結果がいいという直感に反する報告がある。我々はこの手法をEinStein Wurfelt Nicht!(EWN)という2人ゲームに適用し、現象が発生することを確認した。更に確率要素を除いたEWNにも適用し、現象の発生する原因は確率要素に関わることを示唆した。また、上海ゲームという1人用不完全情報ゲームにおいて、人間の記憶モデルを調べた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の核として考えていた、自然言語処理技術を用いて不完全情報ゲームのくせを考慮するAI開発が順調に進んでいる。題材の中心としてガイスターという不完全情報ゲームを使うことを想定していたが、実際にTransformerという手法を用いて強化学習に応用する手法を提案、実装することができた。実験により実用化の目処も立ち、実際にAIの大会に参加もできている。更にブラッシュアップする必要があるが、この核の部分は想定通りの順調な進み具合であると判断できる。 ガイスター以外を題材とした不完全情報ゲームの研究も進めるつもりであったが、今回ドミニオンという複雑な不完全情報ゲームを題材として、強化学習を実用可能なレベルで実行するための基礎研究を行い、LDMという新たな手法を提案し、実験によりその効果を確認することができた。 また、強化学習以外に不完全情報ゲームの木探索手法を開発することも重要なテーマとして考えていたが、今回EWNというゲームを題材にモンテカルロ木探索の性能について分析を行うことができた。 以上より、全体的に当初の計画通り概ね順調であると判断した。
|
Strategy for Future Research Activity |
当初の計画通り、引き続きガイスターを題材に自然言語処理技術を用いて不完全情報ゲームのくせを考慮するAI開発を進めていく。現在はゲームAI強化学習のフレームワークとして有名なHandyRLを用いて、これに自然言語処理手法を応用できるよう改良して新たなAI開発を進めている。 不完全情報ゲームの木探索手法開発については、これまでにガイスターを題材にいくつか研究を進めて発表をしたが、他のもう少し複雑な不完全情報ゲームへの適用を視野にして、いくつかの新たな題材で開発を進めていく。今回用いたEWNを引き続き題材として開発するほか、他の題材を使った開発も検討していく。
|