強化学習などの試行錯誤に基づく学習は、膨大なデータの中から有効な制御則や戦略を獲得するのに適した接近法である。しかし、一般に、学習には膨大な試行錯誤回数を要するという問題がある。特に近年は、深層学習と融合した深層強化学習の登場により、今まで以上に、試行錯誤回数の削減が重要となっていた。 この問題に対し、本研究課題では、試行錯誤回数の大幅な削減を実現する手法の提案を行った。この成果は、ロボット制御などの、今まで困難であったリアルタイム性が重視される領域への深層強化学習の適用可能性を高めることにつながり、人工知能技術の応用範囲をこれまで以上に広げるものであると考える。
|