研究概要 |
本研究の目的は,研究代表者らがこれまでに提案してきた学習最適制御手法を,確率システムへと拡張することで,学習中の外乱やノイズを陽に考慮できる新しい学習法を構築し,歩行ロボットの最適軌道学習へと応用することである.本研究では次の二つの目標を設定し,これを達成する:(1)確率制御理論に基づく学習最適制御の拡張,(2)提案手法を歩行ロボットへと応用し,実機検証による有効性の確認.本年度は目標(1)に関して,確率変数の汎関数である評価関数の変分微分の解析を行った.確率システムの学習制御においては,評価関数は一般に確率変数の汎関数となるため,その勾配を求める際に必要となる変分微分の計算は確定システムの場合とは異なる.確率微分方程式の解過程はいたるところで連続であるが微分不可能であることから,微分は超関数の枠組みを用いて行う必要があるため,Malliavin解析とよばれる理論を用いて変分微分の解析を行った.本年度の成果は,学習入力の更新則の導出において,評価関数の勾配を計算するために必要となり,ノイズによる学習への影響を定量的に補償することが可能となる.つぎに目標(2)に関して,本年度に購入した実験用12自由度二足歩行ロボットのモデル化を行い,動力学シミュレータの構築を行った.さらに,これまでの確定システムにおける学習最適制御の多自由度系への有効性を検証するため,作成した動力学シミュレータを用いた数値シミュレーションにより,学習の効果を確認した.本年度に得られた結果を用いて,次年度は新たに拡張した確率システムに対する学習最適制御手法を歩行ロボットに実際に適用することで,その有効性を検証する.
|