本研究プロジェクトが対象とするゲームAI環境のひとつに、ローグライクゲームと呼ばれるダンジョン探索型環境がある。先行研究では「好奇心」による内部報酬を用いた手法が利用されているが、探索済み状態を過剰に避けるなどの問題点が指摘されている。そこで本研究では、ローグライク環境において3種類の報酬設計で学習を行い、提案手法による内発的報酬設計によって学習が促進されることを確認した。 Off-policy 強化学習では、エージェントが環境から収集した遷移データを保持するために大量のメモリが消費される。本研究では,遷移データの学習における優先度を計算し、相対的に重要でないと判断されたものから破棄することで、バッファによるメモリ消費を節約する手法を提案した。本手法により、画像観測の環境において、性能を低下させることなく、リプレイバッファによるメモリ消費を大幅に削減できることが明らかになった。 不完全情報ゲームにおいては、対戦相手の状態など、自分からは見えない情報を、観測可能な情報から推測することが重要である。そこで本研究では、代表的な不完全情報ゲームである麻雀を題材として、相手の手牌を深層学習によって推定する手法を提案した。実験の結果、近年注目を集めている深層学習モデルであるTransformer を用いて自己回帰的に推定することで高精度の推定が可能であることが明らかになった。 強化学習に基づくゲームAI の課題のひとつに、エージェントがどのような戦略に基づいて行動を決定しているのかが人間にとってブラックボックスであるという問題がある。そこで本研究では、説明可能なゲームAI を実現する方法として階層強化学習を用いる手法を提案した。実験では、簡単なAtari環境であるブロック崩しにおいて、AIの戦略を人間が容易に理解可能な形で可視化できることが明らかになった。
|