2021 Fiscal Year Research-status Report
Development of a general purpose game AI that improves humanly
Project/Area Number |
17K00514
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
橋本 剛 松江工業高等専門学校, 情報工学科, 教授 (40420335)
|
Project Period (FY) |
2017-04-01 – 2023-03-31
|
Keywords | 不完全情報ゲーム / ガイスター / ドミニオン / 方策勾配法 / 反復広化法 / 強化学習 |
Outline of Annual Research Achievements |
不完全情報ゲームガイスターを題材とした研究では、近年方策勾配法を使った強化学習手法が成功を収めた。これを受けて、方策勾配法を用いた学習手法が不完全情報ゲームの汎用的強化学習の核になるのではと考え、汎用的な手法開発に取り組んだ。ガイスターでは強化学習手法の改良と、これを探索と組み合わせた使い方が思考時間の関係で難しいので、その対策に取り組んだ。また、UCTという探索手法を用いる際に、解決されていない不完全情報ゲームならではの不完全情報盤面をどう取り扱うかについて検証を行い、不完全な局面をそのままに駒を取ったときだけ分岐する手法が有効であることが明らかにできた。ガイスターAI大会では共同研究者が開発したプログラムが優勝、3位、4位となるなど、その効果が実証された。また、近年取り組んでいたガイスターの紫駒探索についての論文が採録された。 新たにドミニオンという有名なカードゲームの強化学習にも取り組んだ。このゲームは使われるカードの組み合わせで有効な戦略が変わるという学習しにくい特性がある。カードの種類が多くルールが極めて複雑なので、まずはもっともシンプルなルールから徐々にルールを複雑化して強化学習を反復する反復広化法に似た方法での学習を行うことにした。比較的シンプルなルールで深層強化学習を行ったところ、もっともシンプルなルールでは人間と互角の強さを達成することができた。やや複雑になるとまだ人間には勝てないレベルのため、より効果的な学習手法を考えていく必要がある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
人間の熟達化調査では、当初の予定通りテトリス、弾幕シューティングを題材に実験を行い、成果を上げることができた。人間らしい汎用的強化学習手法の開発では、新たに視覚的顕著性モデルに注目した手法を提案し、実験により学習性能が上がっていることを確認できた。この手法は映像を入力とするどのようなゲームでも使うことが出来、実装も既存の画像処理アルゴリズムを使用するだけで簡単である。実験により異なるジャンルの2ゲームそれぞれで効果を確認することが出来、汎用性が十分あることも予想できる。 題材について,当初扱っていたテトリスは実際にやってみてみると実は思った以上に難しい題材であったことがわかったが、応用的に扱う予定であったぷよぷよと、さらにパネルでポンを、主に連鎖に焦点を当てて題材に加え研究を進め、強化学習は順調に進んでいる。当初予定になかったスーパーマリオブラザーズ無限1UPを実現する強化学習に成功したが、この用途ではニューロエボリューションという手法が適しているという知見を得ることができ、ゲーム開発に貢献できるモデルが提案できた。また、ボンバーマンを模したゲーム、Pombermanでも反復広化法を実装しその性能を評価することができた。新たに不完全情報ゲームのガイスター、ドミニオンも強化学習の題材として研究を始め、すでに有効な学習手法をはじめ関連する手法で成果を上げている。予定以上に多くの題材にチャレンジできている。
|
Strategy for Future Research Activity |
不完全情報ゲームのガイスターとドミニオンを題材にした研究は、本年度も汎用的な強化学習手法のさらなる改良を目指して開発を続ける。 本来は今年度で終了の予定であったが、予定以上に多くの題材に取り組んだため、まとめる作業がまだしばらく必要となる。論文もいくつか準備している。また、今後は不完全情報ゲームに焦点を移した研究にシフトする予定で、そのシンポジウムを開催する予定であったがコロナ禍により実施出来なかったので、今年度に実施する予定である。
|
Causes of Carryover |
最終年度に実施予定であった、今後の研究につなげるための不完全情報ゲームに焦点を当てた研究会を実施する予定であったが、コロナ禍により延期になった。これを次年度に開催するのに研究者を招待する旅費が必要なため、一年延長が必要となった。 また、予定より多くの題材で研究を実施したため、まとめる作業が多くなり、次年度にいくつか投稿する論文を準備していることも理由となる。
|