これまで効率的なゲーム強化学習手法をいくつか提案し成果を出してきたが、多くの研究者により近年ゲーム強化学習の研究がますます盛んになり、MuZeroという強力なツールも登場したので、我々のゲーム強化学習の知見を実社会に近い分野に応用することを目指した。家庭用ロボットや工場用ロボットなど、人間の作業を代行するロボットの研究開発が盛んに行われている。しかし、家事のように人間にとって容易なタスクをロボットが学習できないという問題がある。一方、ボードゲームや Atari2600 などのビデオゲームでは、MuZero がルールを知らない状態で人間を上回るパフォーマンスを出している。しかし、ゲームよりも複雑な実世界の課題を学習することはまだ困難である。そこで、MuZero が学習しやすいように実環境のタスクをゲーム化することを提案する。一例としてロボット掃除機が効率的に部屋を移動する行動をゲームとして表現し、MuZero を用いて学習させた。ゲーム環境は Gazebo シミュレータ上で作成し、ロボットには2次元 LiDAR を搭載したロボットモデル TurtleBot3 burger を用いた。実験の結果、家具を模した障害物のある環境においてロボットにゴミを全て取る行動を学習させることができ、提案の有用性を確認した。 また、不完全情報ゲームのガイスターで、方策勾配法を用いた強化学習により得た評価値を探索に用いる手法が開発されていないので、UCT探索に方策勾配法で求まる行動確率を用いる手法をいくつか提案し、対戦実験によってそれらの性能を評価した。実験結果から、優勝したAI を上回る強さが確認できた。
|