研究概要 |
本研究の目的は,研究代表者らがこれまでに提案してきた学習最適制御手法を,確率システムへと拡張することで,学習中の外乱やノイズを陽に考慮できる新しい学習法を構築し,歩行ロボットの最適軌道学習へと応用することである.本研究では次の二つの目標を設定し,これを達成する:(1)確率制御理論に基づく学習最適制御の拡張,(2)提案手法を歩行ロボットへと応用し,実機検証による有効性の確認. 本年度は目標(1)に関して,前年度に行った確率変数の汎関数である評価関数の変分微分の解析結果に基づき,確率システムの学習制御を達成するための入力の更新則を導出した.この更新則の導出においては,まず評価関数の入力に関する勾配を変分微分の解析結果を用いて計算する.この勾配の計算は,一般的に随伴システムという後退確率微分方程式の計算を要してしまう.そこで,研究代表者らが明らかにした,確率力学系がもつ対称性に関する結果を利用することで,この計算を対応する前進確率微分方程式の計算へと帰着させている. つぎに目標(2)に関して,前年度に購入した実験用12自由度二足歩行ロボットのモデル化を行い,動力学シミュレータの構築を行った.前年度からすでにモデル化とシミュレータ作成には着手していたが,このシミュレータでは,ロボットの着地時の衝突検出と離散的な状態遷移の計算に問題が見つかったため,本年度にこれらの問題を修正し,新たなシミュレータを作成した.このシミュレータを用いた数値実験により,学習の効果を確認した.実機実験では,このシミュレータ上で設計した歩行軌道を目標軌道として,実機に対して軌道追従制御系を構成し,この目標軌道に追従させることで,設計した歩行軌道を実現できることを確認した.
|