本研究では応答曲面法を用いた冗長ロボットの強化学習法を確立することを目的とした.応答曲面法は少ないサンプルを基に最適パラメータを探索でき,特に低次元問題に有効である.冗長ロボットの場合,時間などの問題から多数のサンプルを得ることは難しいことから,応答曲面法の適用が望ましい.ところが,一般に決定変数空間が高次元であり,応答曲面法の適用は容易ではない.そこで,低計算コストでありサンプル回数に制約は無いが信頼性の低いシミュレーションと,信頼性は高いがサンプル数が限られる高精度なシミュレーション・実験とを併用して,適切に学習を進める方法を提案した.
|