2020 Fiscal Year Research-status Report

Development of a general purpose game AI that improves humanly

Research Project

Project/Area Number	17K00514
Research Institution	Matsue National College of Technology
Principal Investigator	橋本剛松江工業高等専門学校, 情報工学科, 教授 (40420335)
Project Period (FY)	2017-04-01 – 2022-03-31
Keywords	強化学習 / 反復広化 / Pomberman / 連鎖型パズルゲーム / DQN / 音楽ゲーム / ゲームAI / ぷよぷよ
Outline of Annual Research Achievements	ボンバーマンに似たゲーム、Pombermanを用いて強化学習に人間の熟達過程にヒントを得た反復広化が有効か検証した。まず狭いフィールドでの対戦で強化学習し、一定回数のちに徐々にフィールドを大きくし強化学習を続ける。それにより早い段階で最初から大きいフィールドで強くなるために必要な動作（爆弾を置いて逃げ敵に近づく）を習得し、早く学習が進むことが確認できた。テトリスによる研究ではフィールドそのものの大きさを変えたため学習が難しくなった反省を活かし、学習に使うフィールドのサイズは最初から大きいサイズで固定し、壁の配置により動けない領域を作ることで移動可能エリアを徐々に大きくしていった。このように、強化学習の枠組みはそのままで、学習対象の環境を適切に設定し反復広化を取り入れることで学習がうまくいくことがあることが示された。一昨年度から進めている連鎖型パズルゲームの研究では、前年度はぷよぷよとパネルを題材に、連鎖数に注目してニューロエボリューションという手法で学習を進めたが、ゲームにランダム性がある場合は学習が難しく連鎖数が伸びていなかった。本年度は深層強化学習の手法であるDQNを用いて、題材にコラムスも追加し、強化学習を進めた。3つの題材すべてで多くの連鎖を達成し、ランダム性がある場合も有効であることが確認できた。また、新たに音楽ゲームを題材とし、人間らしく振る舞うゲームAI作成を行った。強化学習に生物学的制約を導入することで人間らしい失敗を表現し、振る舞いやスコアの変化を検証した.主観評価実験の結果、生物学的制約を導入したAIの一部は実際の人間よりも人間らしいと評価され、極端な失敗を増加させることよりも、動きの微妙なズレを再現することは人間らしく評価されることがわかった.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 人間の熟達化調査では、当初の予定通りテトリス、弾幕シューティングを題材に実験を行い、成果を上げることができた。人間らしい汎用的強化学習手法の開発を目標としているが、新たに当初計画になかった視覚的顕著性モデルに注目した手法を提案し、実験により学習性能が上がっていることを確認できた。この手法は映像を入力とするどのようなゲームでも使うことが出来、実装も既存の画像処理アルゴリズムを使用するだけで簡単である。実験により異なるジャンルの２ゲームそれぞれで効果を確認することが出来、汎用性が十分あることも予想できる。題材について,当初扱っていたテトリスは実際にやってみてみると実は思った以上に難しい題材であったことがわかったが、応用的に扱う予定であったぷよぷよと、さらにパネルでポンと、今年度はコラムスも追加し、主に連鎖に焦点を当てて研究を進め、今年度は深層強化学習での強化に成功した。当初予定になかったスーパーマリオブラザーズを対象に、無限1UPを実現する強化学習に成功したが、この用途ではニューロエボリューションという手法が適しているという知見を得ることができ、ゲーム開発に貢献できるモデルが提案できた。また、新たにボンバーマンを模したゲーム、Pombermanでの強化学習で実験を進め、当初より提案している反復広化が極めて効果的であることを示すことができた。不完全情報ゲームのガイスターも強化学習の題材として研究を始めて、今年度は新たに人間らしい振る舞いをするAIを研究する題材として音楽ゲームを使い、従来研究より汎用的な生物学的制約を与えて人間らしい振る舞いを獲得することに成功しており、予定以上に多くの題材にチャレンジできている。
Strategy for Future Research Activity	連鎖型パズルゲーム（テトリス、パネルでポン、コラムス）を題材として深層強化学習に成功したが、ぷよぷよで反復広化による効率的な強化学習に挑戦しているもののまだうまく行っていない。これらで反復広化を有効にする学習方法を構築することに引き続き挑戦する。 Pombermanを題材とした強化学習で反復広化が極めて効果的になる手法を開発したが、その汎用性を示すため、Pombermanに近いアクションゲームを題材として同様の手法が効果的であることを示したい。これまでに開発した手法を公開できるように整理し、一般に広く使用可能にしたい。
Causes of Carryover	強化学習で Deep Learning を使う予定の研究が多かったので、当初は Deep Learning に有効な比較的有効なGPUを多く買う予定であったが、その後 A3C などCPUを主に使うより有力な手法が開発され、最近は高価なGPUを使う学習が無料で実施できるGoogle Colaboratoryでもある程度は実験で使えるようになり、安価なPCを複数台購入するほうが効率よく開発が行えるようになったため順次購入を進めている。だが購入しようとしたPCがコロナ禍で部品が品薄となりうまく購入できなかった。最終年度に入ってすでに4台購入したが、最後にたくさん実験を行う必要があるのでさらにPCを購入する予定である。

Research Products
(3 results)

All Presentation (3 results)

[Presentation] 強化学習による連鎖型落ち物パズルゲームの研究2021
- Author(s)
  杉江矢, 橋本剛
- Organizer
  第45回情報処理学会ゲーム情報学研究会
[Presentation] ボンバーマンAIの強化学習における新手法の提案2021
- Author(s)
  安藤優希, 橋本剛
- Organizer
  第45回情報処理学会ゲーム情報学研究会
[Presentation] 音楽ゲームのプレイヤAIにおける人間らしく振る舞う強化学習手法の提案2021
- Author(s)
  坂本洸, 橋本剛
- Organizer
  第45回情報処理学会ゲーム情報学研究会