2019 Fiscal Year Research-status Report
Development of a general purpose game AI that improves humanly
Project/Area Number |
17K00514
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
橋本 剛 松江工業高等専門学校, 情報工学科, 准教授 (40420335)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 強化学習 / 視覚的顕著性モデル / ニューロエボリューション / 連鎖型パズルゲーム / ぷよぷよ / ガイスター / モノポリー |
Outline of Annual Research Achievements |
視覚的顕著性モデルを用いた強化学習の研究に関しては、これまで学習の進行を視覚的に捉えることが出来ていなかったので、視覚化するプログラムを追加して効率的に作業が行えるようにした。 昨年度から進めている連鎖型パズルゲームの研究では、ぷよぷよとパネルでポンを題材に、連鎖数に注目した強化学習を進めている。まずはニューロエボリューションという進化形アルゴリズムを用いて学習を行ったところ、報酬をスコアにするよりも連鎖数にして学習を進める方が最大連鎖数が早く大きくなるという知見を得た。わずか数十回世代程度の学習で、ぷよぷよで9連鎖、パネルでポンで6連鎖をするなど、簡単に人間初心者を超える性能を上げることが出来た。この手法は未知の局面に対しては弱いので、今後は深層学習を使った強化学習を行う。 二人零和不完全情報ゲームのガイスターを題材にした研究では、評価関数の強化学習はまだ実装中であるが、ベースとして開発した探索アルゴリズムで、不完全情報である敵駒情報を悲観的に解釈することで完全情報として探索を可能にする紫駒探索法を提案した。この探索法を実装したプログラムでAI大会に参加し、優勝することでその性能が高いことを示すことができた。 いくつか新たな題材を使った研究もはじめた。有名なボードゲーム、モノポリーを題材とした研究では、交渉を行うAIを作成した。従来にない、モンテカルロ法による交渉判断を提案し、その有効性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
人間の熟達化調査では、当初の予定通りテトリス、弾幕シューティングを題材に実験を行い、成果を上げることができた。人間らしい汎用的強化学習手法の開発を目標としているが、新たに視覚的顕著性モデルに注目した手法を提案し、実験により学習性能が上がっていることを確認できた。この手法は映像を入力とするどのようなゲームでも使うことが出来、実装も既存の画像処理アルゴリズムを使用するだけで簡単である。実験により異なるジャンルの2ゲームそれぞれで効果を確認することが出来、汎用性が十分あることも予想できる。 題材について,当初扱っていたテトリスは実際にやってみてみると実は思った以上に難しい題材であったことがわかったが、応用的に扱う予定であったぷよぷよと、さらにパネルでポンを、主に連鎖に焦点を当てて題材に加え研究を進め、強化学習は順調に進んでいる。当初予定になかったスーパーマリオブラザーズを対象に、無限1UPを実現する強化学習に成功したが、この用途ではニューロエボリューションという手法が適しているという知見を得ることができ、ゲーム開発に貢献できるモデルが提案できた。また、新たにボンバーマンを模したゲーム、Pombermanでの強化学習でも開発を進めており、当初パズルゲームで検討していた反復広化法を実装し検証しているところである。不完全情報ゲームのガイスターも強化学習の題材として研究を始めており、予定以上に多くの題材にチャレンジできている。
|
Strategy for Future Research Activity |
視覚的顕著性モデルを用いた強化学習の研究が良い成果を上げたので、引き続き研究を進めながら論文を執筆していく。ていく。人間が注目するであろう箇所以外の情報を削り学習を進めやすくするという手法を提案したが、注目箇所以外の情報を削る方法についてはアドホックな手法を試しただけであり、ここに合理的な新しい手法を考えて実装することで性能が劇的に上がる可能性があると考えており、理論を考えて様々な方法で試行錯誤をしていく。 パズルゲームでは、ぷよぷよとパネルでポンでの研究を進めていく。連鎖型パズルゲームの方が連鎖数に注目することで性能評価がしやすい。すでにニューロエボリューションという進化形アルゴリズムを用いて研究を進めたが、汎化性能を上げるため深層強化学習を実装しており、成功すれば反復広化法をためしていく。新たにはじめたPombermanでの強化学習ではすでに反復広化法を検証中で、効果的なアルゴリズムの開発を目指す。 ガイスター、モノポリーなどでも強化学習を実装し、本手法をどのように実装し検証するかを検討していく。
|
Causes of Carryover |
強化学習で Deep Learning を使う予定の研究が多かったので、当初は Deep Learning に有効な比較的有効なGPUを多く買う予定であったが、その後 A3C などCPUを主に使うより有力な手法が開発され、多くのマシンを使って長時間計算する前にどの手法を使う実験をどの程度するか考えてからマシンを購入する必要が生じた。今年度は高性能CPUマシンを複数台買う予定であったが、高価なGPUを使う学習が無料で実施できるGoogle Colaboratoryでもある程度は実験で使えており、その場合は安価なPCを複数台購入するほうが効率よく開発が行える。そこでさらに開発を進めてからマシン構成を決定していく予定であり、次年度には安価で場所を取らないノートPCなども含めて検討しマシンを複数台購入することを考えている。
|