研究課題/領域番号 |
17K00514
|
研究機関 | 松江工業高等専門学校 |
研究代表者 |
橋本 剛 松江工業高等専門学校, 情報工学科, 准教授 (40420335)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | 汎用的機械学習 / Deep Q-Network / 視覚的顕著性モデル / 弾幕シューティング / Ms.Pacman / ガイスター |
研究実績の概要 |
弾幕シューティングAIの汎用的機械学習手法の研究では、ゲーム画面のデータのみで深層学習を用いて強化学習する実装を行っていたが、新たに人間の視覚における性質に注目して汎用的機械学習法に応用する研究を行った。Deep Q-Networkなどゲームの強化学習では一般にゲーム画面全体を入力とするが、人間は画面の中でも注視している部分とそうでない部分があり、情報の鮮明さが違う。人間は画面内の重要な箇所を注視して情報を取り入れることで効率的な学習を行っていると考えられる。画像解析の分野では、画像内の人間が見る場所を推定する研究が盛んである。画像の色やエッジなどの特徴量から計算した人間の注視度を顕著性と言い、このモデルから得られる顕著性マップからは画素ごとに人間が注視する確率を得ることができる。そこで、顕著性マップを用いた入力画像の前処理を行うことでより重要度の高い情報を学習しやすくなる強化学習手法を提案した。実験では弾幕シューティングゲームとMs.Pacmanを用いて提案手法の有用性を検証し、いずれも提案手法によって学習が早く進むことを確認できた。 麻雀AIの研究では、牌譜を用いた教師あり学習で当たり牌を予測する研究を行い、比較的高い精度で予測することに成功した。 新たに二人零和不完全情報ゲームのガイスターを題材にした研究も行った。汎用的機械学習を行うための土台として探索アルゴリズム、紫駒探索法を開発し、特に終盤に威力を発揮させることに成功した。実験により、従来アルゴリズムを圧倒する性能を示すことができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
1. 人間の熟達化調査では、当初の予定通りテトリス、弾幕シューティングを題材に実験を行い、成果を上げることができた。 2. 新たな人間らしい汎用的強化学習手法の開発を目標としているが、新たに視覚的顕著性モデルに注目した手法を提案し、実験により学習性能が上がっていることを確認できた。この手法は映像を入力とするどのようなゲームでも使うことが出来、実装も既存の画像処理アルゴリズムを使用するだけで簡単である。実験により異なるジャンルの2ゲームそれぞれで効果を確認することが出来、汎用性が十分あることも予想できる。今後この提案手法がさらに効率よく働く方法を模索する必要はあるが、当初はなかった視覚的顕著性モデルを使うというアイデアが成功したことで、期待以上の成果が挙げられる可能性がある。 3. 題材についても、昨年度は当初予定になかったスーパーマリオブラザーズを対象にニューロエボリューションという手法が適しているという知見を得ることができたが、この手法を用いて当初予定していたテトリス以外に、ぷよぷよやパズルでポンといった連鎖型パズルゲームを題材に強化学習を行っており、順調に実験も進められており次年度に発表を行う予定である。また、新たに二人零和不完全情報ゲームのガイスターを題材にした研究も行い、順調に実験が進んでいるなど、当初の予定以上に幅広い題材で研究を進めることが出来ている。
|
今後の研究の推進方策 |
視覚的顕著性モデルを用いた強化学習の研究が良い成果を上げたので、引き続き最優先で研究を進めていく。人間が注目するであろう箇所以外の情報を削り学習を進めやすくするという手法を提案したが、注目箇所以外の情報を削る方法についてはアドホックな手法を試しただけであり、ここに合理的な新しい手法を考えて実装することで性能が劇的に上がる可能性があると考えており、理論を考えて様々な方法で試行錯誤をしていく。 パズルゲームではテトリス以外にぷよぷよとパネルでポンでの研究を進めていく。これら連鎖型パズルゲームの方が連鎖数に注目することで性能評価がしやすく、こちらの研究も重点的に進めていく。ニューロエボリューションという進化形アルゴリズムを用いて研究を進めているが、いくつかのアルゴリズムで実験をし、パズルゲームにふさわしい人間的な汎用的強化学習手法を開発していく。
|
次年度使用額が生じた理由 |
強化学習で Deep Learning を使う予定の研究が多かったので、当初は Deep Learning に有効な比較的有効なGPUを多く買う予定であったが、その後 A3C などCPUを主に使うより有力な手法が開発され、また本研究でも Deep Learning だけでなくニューロエボリューションなど進化系アルゴリズムを使うことでより高いパフォーマンスが得られるケースも多いことが分かってきており、多くのマシンを使って長時間計算する前にどの手法を使う実験をどの程度するか考えてからマシンを購入する必要が生じた。 もう少し開発を進めてからマシン構成を決定していく予定であり、次年度にはマシンを複数台購入することを考えている。
|