• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

強化学習を用いた進化論的生物型ロボットの行動形態獲得の研究

Research Project

Project/Area Number 23500275
Research InstitutionYokohama National University

Principal Investigator

藪田 哲郎  横浜国立大学, 工学研究院, 教授 (30323926)

Co-Investigator(Kenkyū-buntansha) 豊田 希  横浜国立大学, 工学研究院, 研究教員 (60547222)
Keywords強化学習 / Q学習 / 生物型ロボット / 報酬操作 / 主観報酬 / 前進行動形態 / ハンド
Research Abstract

今年度は、生物ロボットの行動形態については、静的な運動から動的な運動に研究対象を変化させ、Hoytらが馬の移動形態で示した速度によって移動モードが異なる現象を強化学習で実現できるかを解明した。対象として哺乳類を想定して4足とし、組合せの爆発を防ぐために限定した状態数を用いてシミュレーション実験を進めたが、速度によって移動モードが変化する現象を再現させることができ、強化学習の枠組みの中で移動モード変化が可能なことを明らかにした。この結果は、Hoytらの馬で行動形態の変遷をうまく実現した結果である。
強化学習の客観報酬ではなくて、人間が評価をした主観報酬を用いると、どのような特徴が出てくるかに興味を持ち、イモムシロボットの最大前進移動量を獲得する行動形態に着目して解明を進めた。同一条件の比較を行うと、主観報酬を用いた方がより大きい前進移動量を獲得できた。この原因を解明すると、人間は一連の動きを予想して評価をしているようであり、人間が高い評価を与えた行動形態の主観報酬を客観報酬に組み込むと、前進移動量が大幅に改善されることを明らかにした。
また、強化学習を用いた大車輪ロボットの運動については確率挙動が支配的であることを解明し、学習が収束した学習知識を用いても確率的挙動が残り、初期値の変動によって大車輪運動が実現できない確率が存続することを明らかにした。さらに、赤ちゃんが立つ現象を再現するために、強化学習を用いて人間の直立安定性の研究を始めたが、倒れる現象を体内感覚に置き換えることでロバストな安定性を保持しているような研究結果が得られた。
最後に、マニピュレータ・ハンドシステムで対象物を把持しながら、仮想のインピーダンスを実現する内力外力分離型インピーダンスおよびアドミッタンス制御手法を確立した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

以下に示す理由から、上記の評価ができる。
(1) 生物型ロボットの行動形態の獲得については、問題点はHoytらの行動形態のモード変換を強化学習の枠組みで実現出来るかどうかであったが、これを実現できる結果を獲得したことは大きな進歩である。
(2) 強化学習の報酬として、人間があたえる主観報酬と評価関数から与えられる客観報酬の比較を、イモムシ型ロボットの前進行動の獲得を対象にして行ったが、主観報酬の方が良い結果が得られ、当初の想定どおり人間の報酬はより上位の情報を含んでいる結果が得られた。
(3) 強化学習の大車輪運動の獲得については、実験結果を確率挙動として扱うと、その全体像を解明できること、強化学習を用いた人間の直立安定性については、学習シミュレーションで人間は(倒れる/倒れない)の報酬ではなく、体内感覚の連続量を使っていることが示唆される結果が得られたことは、次のステップに進む大きな進歩である。
(4) マニピュレータ・ハンドシステムでは、物体把持をした時の内力外力のインピーダンス制御手法をインピーダンス制御およびアドミッタンス制御で実現できたことは、大きな進歩といえる。

Strategy for Future Research Activity

平成23&24年度はほぼ当初の研究計画を実現できたので、いまだ進展が出来ていない部分を含めて平成25年度は最終年度になるので以下の項目を推進する。
(1) 強化学習の動的行動形態のモード変換について実現できたので、この行動形態が地球以外の重力が異なった惑星では、どのようなモード変換が起こるか等を解明する。
(2) 強化学習を用いた大車輪運動については、確率的な挙動現象として扱う方が全体像解明が進むことが明らかになったので、確率的な挙動からの解明を進める。
(3) 強化学習を用いた人間の直立安定性の確保については、体感情報を用いて学習知識を獲得し、従来のZMP等の制御則との比較を行ってみる。さらには、強化学習を用いて、二足歩行についても挑戦する。
(4) マニピュレータ・ハンドシステムについては、物体把持した時のインピーダンス制御におけるインピーダンス制御とアドミッタンス制御の性能比較、インピーダンスパラメーターの実現性の評価、周波数特性の解明を行う。

Expenditure Plans for the Next FY Research Funding

該当なし

  • Research Products

    (6 results)

All 2013 2012 Other

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (1 results) Remarks (1 results)

  • [Journal Article] 主観報酬を用いた強化学習によるイモムシ型ロボットの行動形態2013

    • Author(s)
      山科亮太、黒田将史、藪田哲郎
    • Journal Title

      日本機械学会和文論文誌C編

      Volume: Vol.79,No.798 Pages: pp.366-371

    • Peer Reviewed
  • [Journal Article] 強化学習を用いた生物型ロボットの前進行動形態獲得と機構がエネルギに及ぼす影響2012

    • Author(s)
      坂井直樹、豊田希、藪田哲郎
    • Journal Title

      日本機械学会和文論文誌C編

      Volume: Vol.78,No.789 Pages: pp.1886-1898

    • Peer Reviewed
  • [Journal Article] 強化学習を用いた大車輪ロボットの学習知識の選択可能性について2012

    • Author(s)
      横山智宏、坂井直樹、藪田哲郎
    • Journal Title

      日本機械学会和文論文誌C編

      Volume: Vol.78,No.790 Pages: pp.2090-2105

    • Peer Reviewed
  • [Journal Article] 人間技能の抽出・模擬によるフィンガ・アームロボットのヨーヨー操作(目隠しヨーヨーの実現)2012

    • Author(s)
      佐野嘉則、堀貴之、早川拓人、藪田哲郎
    • Journal Title

      日本機械学会和文論文誌C編

      Volume: Vol.78,No.90 Pages: pp.2074-2089

    • Peer Reviewed
  • [Presentation] 内力外力インピーダンスモデルを用いたロボットフィンガによる実在物体把持2013

    • Author(s)
      佐野嘉則、堀良太、堀貴之、藪田哲郎
    • Organizer
      第18回ロボティクスシンポジア
    • Place of Presentation
      山形県上山市
    • Year and Date
      20130314-20130315
  • [Remarks] http://yabsv.jks.ynu.ac.jp/

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi