2009 年度実績報告書

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

研究課題

研究課題/領域番号	21560275
研究機関	明治大学
研究代表者	小林博明明治大学, 理工学部, 教授 (60130811)
研究分担者	田中純夫明治大学, 理工学部, 専任講師 (40287884)
キーワード	機械知能 / 知能ロボティクス / 制御工学
研究概要	本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に,腱の緩み,腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難である. そこで,申請者等は改良型罰回避政策形成アルゴリズムを用いることとした.これは罰を与えられた頻度(罰度)がある閾値を越えると,以後そのルールは強制的に排除され,残りのルールから報酬に基づいてルールが選択される物であり,不確実性に対するロバスト性を備えている.また,転倒,腱の緩み,腱の破断などの複数個の罰に優先順位を付けて回避しすることが出来るので,本研究に有効であると考えられるからである. 平成21年度には,次の事を行った.(a)改良型罰回避政策形成アルゴリズムを連続状態と離散的状態を含むハイブリッド環境に拡張した.すなわち,前後するセンサ入力情報の差異がある閾値以下であるときはそれらの入力ベクトルを結ぶ方向に長軸を持っ超楕円体の状態を生成し,それ以外の場合には現在の入漢字ベクトルを中心とする球状の状態を生成することで,遊脚着地等の状態の不連続遷移に対応できるようにした.(b)罰ルールや罰状態を識別するための閾値が学習効率に大きな影響を与えることを示し,実験中にその最適値を学習する手法について考察した.(c)腱駆動2足歩行ロボットの動的安定歩行腰軌道を静的安定腰軌道から学習する問題に対して,本アルゴリズムを適用した.その際,腱の緩みと実際のZMPの目標ZMPからの多大の誤差および,罰状態への遷移に対して優先度を付した罰を与え,罰導入の有効性を確認した.(d)FPGAを用いて腱駆動2足歩行ロボットの制御システムを開発した.

研究成果
(4件)

すべて 2010 2009

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

[雑誌論文] A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Spaces2009
- 著者名/発表者名
  Takuji Watanabe, Kazuteru Miyazaki, HIroaki Kobayashi
- 雑誌名
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics Vol.13, No.6
  
  ページ: 675-683
- 査読あり
[学会発表] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習2010
- 著者名/発表者名
  黒田聖也, 平野晃一郎, 小林博明, 田中純夫
- 学会等名
  日本機械学会関東支部第16期総会講演会
- 発表場所
  明治大学アカデミーコモン
- 年月日
  2010-03-10
[学会発表] 改良型罰回避政策形成アルゴリズムへの罰基底度決定機構の導入と評価2010
- 著者名/発表者名
  小林諒平, 宮崎和光, 小林博明
- 学会等名
  日本機械学会関東支部第16期総会講演会
- 発表場所
  明治大学アカデミーコモン
- 年月日
  2010-03-10
[学会発表] 罰基底度閾値の学習機能を有する改良型罰回避政策形成アルゴリズムの提案2009
- 著者名/発表者名
  小林諒平, 宮崎和光, 小林博明
- 学会等名
  第52回自動制御連合講演会
- 発表場所
  大阪大学基礎工学研究科
- 年月日
  2009-11-22

2009 年度 実績報告書

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

研究代表者

小林 博明 明治大学, 理工学部, 教授 (60130811)

研究成果

[雑誌論文] A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Spaces2009

著者名/発表者名

雑誌名

[学会発表] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 改良型罰回避政策形成アルゴリズムへの罰基底度決定機構の導入と評価2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 罰基底度閾値の学習機能を有する改良型罰回避政策形成アルゴリズムの提案2009

著者名/発表者名

学会等名

発表場所

年月日

2009 年度実績報告書

小林博明明治大学, 理工学部, 教授 (60130811)