2009 Fiscal Year Annual Research Report

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

Research Project

Project/Area Number	21560275
Research Institution	Meiji University
Principal Investigator	小林博明 Meiji University, 理工学部, 教授 (60130811)
Co-Investigator(Kenkyū-buntansha)	田中純夫明治大学, 理工学部, 専任講師 (40287884)
Keywords	機械知能 / 知能ロボティクス / 制御工学
Research Abstract	本研究は罰と報酬を用いる強化学習法を腱駆動方式歩行ロボットに適用することよって,効率的で多機能な腱駆動式2足歩行ロボットを実現することを目的としている.腱駆動2足歩行ロボットの場合,歩行の安定性以外に,腱の緩み,腱の破断などの危険があり,従来のニューラルネットによる学習法では学習が困難である. そこで,申請者等は改良型罰回避政策形成アルゴリズムを用いることとした.これは罰を与えられた頻度(罰度)がある閾値を越えると,以後そのルールは強制的に排除され,残りのルールから報酬に基づいてルールが選択される物であり,不確実性に対するロバスト性を備えている.また,転倒,腱の緩み,腱の破断などの複数個の罰に優先順位を付けて回避しすることが出来るので,本研究に有効であると考えられるからである. 平成21年度には,次の事を行った.(a)改良型罰回避政策形成アルゴリズムを連続状態と離散的状態を含むハイブリッド環境に拡張した.すなわち,前後するセンサ入力情報の差異がある閾値以下であるときはそれらの入力ベクトルを結ぶ方向に長軸を持っ超楕円体の状態を生成し,それ以外の場合には現在の入漢字ベクトルを中心とする球状の状態を生成することで,遊脚着地等の状態の不連続遷移に対応できるようにした.(b)罰ルールや罰状態を識別するための閾値が学習効率に大きな影響を与えることを示し,実験中にその最適値を学習する手法について考察した.(c)腱駆動2足歩行ロボットの動的安定歩行腰軌道を静的安定腰軌道から学習する問題に対して,本アルゴリズムを適用した.その際,腱の緩みと実際のZMPの目標ZMPからの多大の誤差および,罰状態への遷移に対して優先度を付した罰を与え,罰導入の有効性を確認した.(d)FPGAを用いて腱駆動2足歩行ロボットの制御システムを開発した.

Research Products
(4 results)

All 2010 2009

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

[Journal Article] A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Spaces2009
- Author(s)
  Takuji Watanabe, Kazuteru Miyazaki, HIroaki Kobayashi
- Journal Title
  
  Journal of Advanced Computational Intelligence and Intelligent Informatics Vol.13, No.6
  
  Pages: 675-683
- Peer Reviewed
[Presentation] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習2010
- Author(s)
  黒田聖也, 平野晃一郎, 小林博明, 田中純夫
- Organizer
  日本機械学会関東支部第16期総会講演会
- Place of Presentation
  明治大学アカデミーコモン
- Year and Date
  2010-03-10
[Presentation] 改良型罰回避政策形成アルゴリズムへの罰基底度決定機構の導入と評価2010
- Author(s)
  小林諒平, 宮崎和光, 小林博明
- Organizer
  日本機械学会関東支部第16期総会講演会
- Place of Presentation
  明治大学アカデミーコモン
- Year and Date
  2010-03-10
[Presentation] 罰基底度閾値の学習機能を有する改良型罰回避政策形成アルゴリズムの提案2009
- Author(s)
  小林諒平, 宮崎和光, 小林博明
- Organizer
  第52回自動制御連合講演会
- Place of Presentation
  大阪大学基礎工学研究科
- Year and Date
  2009-11-22

2009 Fiscal Year Annual Research Report

腱駆動2足歩行ロボットの行動戦略・関節剛性の強化学習

Principal Investigator

小林 博明 Meiji University, 理工学部, 教授 (60130811)

Research Products

[Journal Article] A New Improved Penalty Avoiding Rational Policy Making Algorithm for Keepaway with Continuous State Spaces2009

Author(s)

Journal Title

[Presentation] 腱駆動2足歩行ロボットの開発と腰軌道および腱張力の強化学習2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 改良型罰回避政策形成アルゴリズムへの罰基底度決定機構の導入と評価2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 罰基底度閾値の学習機能を有する改良型罰回避政策形成アルゴリズムの提案2009

Author(s)

Organizer

Place of Presentation

Year and Date

小林博明 Meiji University, 理工学部, 教授 (60130811)