2005 Fiscal Year Annual Research Report
学習システムを備えた生物規範に基づく2足歩行の実現
Project/Area Number |
05J02829
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松原 崇充 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC1)
|
Keywords | 2足歩行 / 生物規範 / 強化学習 / 方策勾配法 / 自然方策勾配法 / 変分ベイズ法 / CPG |
Research Abstract |
実世界で自律的に環境の変化に適応する生物の運動は,中枢神経系により構成されるパターン発生器(Central Pattern Generator : CPG)及び,様々な運動器官からCPGへのセンサフィードバックによって生成されていることが,神経生理学の研究によって示唆されている.このような生物規範に基づく制御則を実ロボットに適用することで,環境の変化に対してロバストな制御が実現出来る.しかし,そのような性質を得るためには,明確な設計原理のないCPGのパラメータ等を適切に調節する必要があることが問題であった.本研究では,強化学習の一手法である方策勾配法に基づく学習システムを構築することで,数値実験においてCPGへのセンサフィードバックの方策を自律的に獲得させることに成功し,獲得された制御方策を用いることで実ロボットにおける,環境やロボットのダイナミクスの変化に対しロバストな2足歩行を実現した.上記の結果について,国際学会において2件の発表を行った. 上記の手法をヒューマノイドのような多自由度を持つロボットに適用するためには,計算量や必要とされる試行回数の点において,学習手法の抜本的な改善が求められる.そこで本研究では,変分ベイズ法に基づく自然方策勾配の推定手法の開発を行った.近年,方策勾配法の学習過程に見られる,方策パラメータ間の相関が及ぼす学習の停滞を解消する,より効率的な手法として自然方策勾配法が提案された.しかし,これまでに提案されているアルゴリズムでは,方策推定問題が不良設定問題となることがあるため,複雑な問題への適用が困難であった.本研究では,変分ベイズ法に基づく自然方策勾配の推定手法を開発し,さらに倒立振子の安定化課題に対して適用し,その有効性を確認した.その結果について国内学会で1件の発表を行った.今後は2足歩行のようなロボットの複雑な運動の学習に対する適用を目指す.
|