研究概要 |
本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に,腱の緩み,腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難である. そこで,申請者等は改良型罰回避政策形成アルゴリズムを用いることとした.これは罰を与えられた頻度(罰度)がある閾値を越えると,以後そのルールは強制的に排除され,残りのルールから報酬に基づいてルールが選択される物であり,不確実性に対するロバスト性を備えている.また,転倒,腱の緩み,腱の破断などの複数個の罰に優先順位を付けて回避しすることが出来るので,本研究に有効であると考えられるからである. 平成21年度には,次の事を行った.(a)改良型罰回避政策形成アルゴリズムを連続状態と離散的状態を含むハイブリッド環境に拡張した.すなわち,前後するセンサ入力情報の差異がある閾値以下であるときはそれらの入力ベクトルを結ぶ方向に長軸を持っ超楕円体の状態を生成し,それ以外の場合には現在の入漢字ベクトルを中心とする球状の状態を生成することで,遊脚着地等の状態の不連続遷移に対応できるようにした.(b)罰ルールや罰状態を識別するための閾値が学習効率に大きな影響を与えることを示し,実験中にその最適値を学習する手法について考察した.(c)腱駆動2足歩行ロボットの動的安定歩行腰軌道を静的安定腰軌道から学習する問題に対して,本アルゴリズムを適用した.その際,腱の緩みと実際のZMPの目標ZMPからの多大の誤差および,罰状態への遷移に対して優先度を付した罰を与え,罰導入の有効性を確認した.(d)FPGAを用いて腱駆動2足歩行ロボットの制御システムを開発した.
|