研究概要 |
本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に腱の緩みや腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難であるからである.そこで,申請者等は強化学習法として,報酬割り当て法と改良型罰回避政策形成アルゴリズムを組み合わせて用いることとし,平成21年度から研究を行っている. 昨年度の研究から(1)罰ルール決定のための罰閾値の設定法が発見手法的であること,(2)上記アルゴリズムにより学習は促進されるが,まだ数千回の学習を要し,実機に適用するには問題があること,(3)通信等を含めたトータルなサンプリングタイムをさらに短縮する必要があること,が分かった. 平成22年度には次の事を行った.(a)罰閾値を学習するアルゴリズムを提案し,その有効性を確認した.(b)学習を促進するため固定状態を導入した.これはある程度学習が進んだ状態は固定状態へ移行し,それ以後は決定論的に行動を選択することとした.(c)固定状態への移行戦略として2種類を提案し,その有効性を検討した.(d)同手法の,階段昇降時の腰軌道学習や腱駆動機構の最適腱張力強化学習への拡張に着手した.(d)腱駆動2足歩行ロボットの制御システムをFPGAのDSPを用いてさらに改良することとし,フィードバックゲインを決定した.(e)Mathematicaによる集中質量系のシミュレーション結果と分布質量系のシミュレーション結果を比較するために,visual Nastran 4Dでのシミュレータ開発に着手した.
|