研究課題/領域番号 |
22K12339
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
橋本 剛 松江工業高等専門学校, 情報工学科, 教授 (40420335)
|
研究分担者 |
HSUEH ChuHsuan 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (30847497)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
キーワード | 不完全情報ゲーム / ガイスター / Transformer / TGEM / ドミニオン / LDM / Gumbel MuZero / EinStein Wurfelt Nicht! |
研究実績の概要 |
不完全情報ゲーム研究の題材として、今年度もガイスターを中心に開発を行い、自然言語を使って相手の「くせ」を考慮するAIの開発方法を検討した。まずは自然言語処理モデル Transformerを用いる手法を開発した。ガイスターは相手駒の種類が分からない不完全情報ゲームなので、Transformerを相手駒種推定に使うことにした。開発した TGEM は自駒の種類と行動履歴を一文として入力し、相手駒種を推定するモデルである。実験では、ランダムに相手駒種を推定する場合に比べて高い精度を出すことができた。 また、複雑な不完全情報ゲームであるドミニオンを題材とした深層強化学習の研究にも取り組んだ。ドミニオンはゲームごとに異なる種類のカードを組み合わせるルールのためすべてを事前に学習することが難しい。そこで、未知の場を学習する際に既存の学習した場の中から類似性の高い場の学習モデルを用いることで学習時間を大幅に短縮させる手法を試した。強化学習では少しの違いを理解させ効率的に学習を続けるのが難しいが、変更するカードは効果のみを変更することにより学習モデルにあたかもこれまでと同じ場を学習しているかのように錯覚させる Learning by Deceive Method(LDM)を提案した。LDM を用いた実験により大幅な学習時間短縮が確認できた。 1人用確率ゲーム2048にGumbel MuZeroという手法を適用し、木探索のシミュレーション回数が少ない方が学習の結果がいいという直感に反する報告がある。我々はこの手法をEinStein Wurfelt Nicht!(EWN)という2人ゲームに適用し、現象が発生することを確認した。更に確率要素を除いたEWNにも適用し、現象の発生する原因は確率要素に関わることを示唆した。また、上海ゲームという1人用不完全情報ゲームにおいて、人間の記憶モデルを調べた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究の核として考えていた、自然言語処理技術を用いて不完全情報ゲームのくせを考慮するAI開発が順調に進んでいる。題材の中心としてガイスターという不完全情報ゲームを使うことを想定していたが、実際にTransformerという手法を用いて強化学習に応用する手法を提案、実装することができた。実験により実用化の目処も立ち、実際にAIの大会に参加もできている。更にブラッシュアップする必要があるが、この核の部分は想定通りの順調な進み具合であると判断できる。 ガイスター以外を題材とした不完全情報ゲームの研究も進めるつもりであったが、今回ドミニオンという複雑な不完全情報ゲームを題材として、強化学習を実用可能なレベルで実行するための基礎研究を行い、LDMという新たな手法を提案し、実験によりその効果を確認することができた。 また、強化学習以外に不完全情報ゲームの木探索手法を開発することも重要なテーマとして考えていたが、今回EWNというゲームを題材にモンテカルロ木探索の性能について分析を行うことができた。 以上より、全体的に当初の計画通り概ね順調であると判断した。
|
今後の研究の推進方策 |
当初の計画通り、引き続きガイスターを題材に自然言語処理技術を用いて不完全情報ゲームのくせを考慮するAI開発を進めていく。現在はゲームAI強化学習のフレームワークとして有名なHandyRLを用いて、これに自然言語処理手法を応用できるよう改良して新たなAI開発を進めている。 不完全情報ゲームの木探索手法開発については、これまでにガイスターを題材にいくつか研究を進めて発表をしたが、他のもう少し複雑な不完全情報ゲームへの適用を視野にして、いくつかの新たな題材で開発を進めていく。今回用いたEWNを引き続き題材として開発するほか、他の題材を使った開発も検討していく。
|
次年度使用額が生じた理由 |
当初は強化学習に使用する高性能GPUを備えたPCを購入する予定であったが、物価の高騰により当初購入予定のモデルが購入できなくなった。所属する研究機関の大型計算機を借りるなどして代用しているが、今後は購入予定のPCの値が落ち着いたら購入をしようと考えている。
|