2017 Fiscal Year Research-status Report
Development of a general purpose game AI that improves humanly
Project/Area Number |
17K00514
|
Research Institution | Matsue National College of Technology |
Principal Investigator |
橋本 剛 松江工業高等専門学校, 情報工学科, 准教授 (40420335)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 機械学習 / ゲーム / Deep Learning / テトリス / マリオ / 弾幕シューティング / 麻雀 / 熟達化 |
Outline of Annual Research Achievements |
人間熟達化の研究ではテトリスと弾幕シューティングを中心に、さまざまな実験を行った。テトリスでは視線追跡装置を使った実験により、上級者になるほど視線が安定することが確認できた。弾幕シューティングでは初級者ほど自機に近いところを注目していることが確認できた。 テトリスAIの汎用的機械学習手法の研究では、5x5のフィールドで学習を行い、その結果を用いて7x7のフィールドで学習を行う手法を考案し、性能向上を確認できた。その際、異なる座標系でどのように拡張するかが問題となったが、落ちたピースを中心とする座標系で学習を行う手法を提案し、学習時間がかなりかかるものの、性能向上に成功した。また、そもそも小さい座標だとかえって学習が難しくなる可能性があるという知見を得た。 弾幕シューティングAIの汎用的機械学習手法の研究では、ゲーム画面のデータのみで深層学習を用いて強化学習する実装を行い、自機を中心とした小さい領域で学習したデータをやや大きい領域の学習に使うことで学習の性能が上がることを実験で実証できた。 麻雀AIの学習では、まずは牌譜を作った教師あり学習を深層学習で行う環境を実装し、学習が出来ていることを確認できた。 また、深層学習以外の学習方法を試すため、スーパーマリオブラザーズに似たゲームでニューロエボリューションという手法を用いて強化学習を行ったところ、予想よりも遥かに簡単に有名な無限1UPに近い動きを学習できるという知見を得た。その成果を動画で公開した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1.人間の熟達化調査では、当初の予定通りテトリス、弾幕シューティングを題材に視線追跡装置を使った実験などを行うことができ、上級者と初級者の差を観測することができた。より多くの被験者で実験を行いたいが、おおむね予定通り進められた。 2.強化学習プログラムの実装では、予定していたテトリス、弾幕シューティング、麻雀のそれぞれで実装を行い、テトリスと弾幕シューティングでは強化学習を実際に行って効果を確かめることができた。麻雀AIの学習では教師あり学習をすることが出来たが、まだ強いAIにはなっておらずもうしばらく実装を進めないといけない。 また、候補ではあったが当初の予定にはなかったスーパーマリオAIを使った学習も行い、深層学習ではなくニューロエボリューションで簡単に有名な裏技を学習できるという知見を得られ、新たな研究の方向性も見えた。
|
Strategy for Future Research Activity |
今後も人間熟達化の仕組みが強化学習の参考になると考え、さらに別ジャンルのゲームでも熟達化の研究を行っていく。「音ゲー」と呼ばれるジャンルのゲームについて、熟達化に関して面白い知見が得られそうなので研究を進める予定である。 テトリスAI強化学習では、案外小さいフィールドでのプレイが難しいことがわかってきたので、別方向での人間的な上達方法を反映した強化学習手法も考えていく。また、同じ手法でぷよぷよに似たゲームでの実装も並行して進めていく予定である。 弾幕シューティングAI強化学習では、最初から難易度の高すぎる環境で学習をしていた可能性があることが分かってきたので、難易度調整も行いながら、あるいは難易度も含めた人間的な上達方法を模索してさらに分析と実装を進めていく。 麻雀AIでは引き続き教師あり深層学習の実装をまずは進め、シンプルな実装でどの程度強いAIを作成できるかに挑戦していく。
|
Causes of Carryover |
強化学習で Deep learning を使う予定の研究が多かったので、 Deep learning に有効な比較的高性能なGPU(GTX1080など)を数枚購入する予定であった。だが新たにA3Cと呼ばれる強化学習の手法が考案され、この手法の方が本研究に適している可能性があり、この手法ではGPUを使わずにCPUの能力が重要になることから、GPU購入を一旦保留し性能評価をしている。その実装と性能評価には消費電力の問題もあり、比較的高性能のCPUを使う低消費電力のノートPCが適していることがわかったので、そのようなノートPCを2台購入した。実装に時間がかかるので性能評価をするのももう少し時間が必要だが、その結果を踏まえてからどのようなマシンを購入するか決めるのがふさわしいと考えて一分購入を保留している。
|