2010 年度実績報告書

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

研究課題

研究課題/領域番号	21560275
研究機関	明治大学
研究代表者	小林博明明治大学, 理工学部, 教授 (60130811)
研究分担者	田中純夫明治大学, 理工学部, 講師 (40287884)
キーワード	機械学習 / 知能ロボティックス / 制御工学
研究概要	本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に腱の緩みや腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難であるからである.そこで,申請者等は強化学習法として,報酬割り当て法と改良型罰回避政策形成アルゴリズムを組み合わせて用いることとし,平成21年度から研究を行っている. 昨年度の研究から(1)罰ルール決定のための罰閾値の設定法が発見手法的であること,(2)上記アルゴリズムにより学習は促進されるが,まだ数千回の学習を要し,実機に適用するには問題があること,(3)通信等を含めたトータルなサンプリングタイムをさらに短縮する必要があること,が分かった. 平成22年度には次の事を行った.(a)罰閾値を学習するアルゴリズムを提案し,その有効性を確認した.(b)学習を促進するため固定状態を導入した.これはある程度学習が進んだ状態は固定状態へ移行し,それ以後は決定論的に行動を選択することとした.(c)固定状態への移行戦略として2種類を提案し,その有効性を検討した.(d)同手法の,階段昇降時の腰軌道学習や腱駆動機構の最適腱張力強化学習への拡張に着手した.(d)腱駆動2足歩行ロボットの制御システムをFPGAのDSPを用いてさらに改良することとし,フィードバックゲインを決定した.(e)Mathematicaによる集中質量系のシミュレーション結果と分布質量系のシミュレーション結果を比較するために,visual Nastran 4Dでのシミュレータ開発に着手した.

研究成果
(4件)

すべて 2010

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

[雑誌論文] Threshold Learning in the Improved Penalty Avoiding Rational Policy Marking Algorithm2010
- 著者名/発表者名
  Kazuteru Miyazaki, Ryouhei Kobayashi, Hiroaki Kobayashi
- 雑誌名
  
  Proc.of SICE Annual Conference 2010
  
  ページ: 3240-3245
- 査読あり
[学会発表] マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用とサッカーロボットを用いた実験による評価2010
- 著者名/発表者名
  伊藤昌樹、宮崎和光、小林博明
- 学会等名
  第53回自動制御連合講演会
- 発表場所
  高知市高知城ホール
- 年月日
  2010-11-04
[学会発表] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習-その2010
- 著者名/発表者名
  伊藤昌樹、宮崎和光、小林博明
- 学会等名
  第53回自動制御連合講演会
- 発表場所
  高知市高知城ホール
- 年月日
  2010-11-04
[学会発表] Threshold Learning in the Improved Penalty Avoiding Rational Policy Mazking Algorithm2010
- 著者名/発表者名
  Kazuteru Miyazaki, Ryouhei Kobayashi, Hiroaki Kobayashi
- 学会等名
  SICE Annual Conference 2010
- 発表場所
  Grand Hotel, Taipei, Taiwan
- 年月日
  2010-08-21

2010 年度 実績報告書

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

研究代表者

小林 博明 明治大学, 理工学部, 教授 (60130811)

研究成果

[雑誌論文] Threshold Learning in the Improved Penalty Avoiding Rational Policy Marking Algorithm2010

著者名/発表者名

雑誌名

[学会発表] マルチエージェント連続タスクへの改良型罰回避政策形成アルゴリズムの適用とサッカーロボットを用いた実験による評価2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習-その2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Threshold Learning in the Improved Penalty Avoiding Rational Policy Mazking Algorithm2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

小林博明明治大学, 理工学部, 教授 (60130811)