研究概要 |
本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に腱の緩みや腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難であるからである.そこで,申請者等は強化学習法として,報酬割り当て法と改良型罰回避政策形成アルゴリズムを組み合わせて用いることとし,平成21年度から研究を行っている. 昨年度の研究から(1)固定状態導入の効果の評価法が不明確であること,(2)罰状態の伝播速度が遅く、あまり有効に働いていないこと,(3)ZMP許容誤差が実機に比べ大きいこと、(3)実機の腱張力制御の精度が不十分であること,が分かった. そこで、平成23年度には次の事を行った.(a)固定状態導入法の評価法としてマルチスタート法に基づいた評価法を用いることを提案し、学習パラメータの評価を行った。(b)それまでの罰度を用いた罰回避法に対して、そのルールを用いた場合に将来失敗する予想確率を用いる新しい罰回避を提案し、その有効性を検証した。(c)GAを用いて学習パラメータを再検討し、実機に対応したZMP許容誤差に対する歩行が実現できるようにした。(d)水平歩行に対する学習結果を階段歩行に用いることで、学習時間の短縮が図れることを確認した。(e)これまでの腱張力制御器にNSTを用いたI-PD制御法を導入し、精度の向上を行った。また、Mathematicaとvisual Nastran 4Dを用いて、2足歩行ロボソトの関節トルクの検証を行った。
|