強化学習の有効性は様々な分野で明らかになってきているが,多自由度ロボットの強化学習は状態や入力が連続値であることもあり,タスクによっては数十万回に及ぶ実験が必要となるなど,まだ実用に足る効率は発揮できていない.本研究ではデータ効率の向上を目的に,データの使い方の工夫を提案した.また,データの工夫だけでは効率化に限界がある.そこで,明らかに成立する物理的性質を学習に取り入れることを考え,その実現のための基礎的検討を行った.これらは,今後さらに強化学習の効率を向上させ,多自由度ロボットの強化学習のデータ効率を実用的なレベルに引き上げるための基礎となりうる.
|