研究課題/領域番号 |
23500275
|
研究機関 | 横浜国立大学 |
研究代表者 |
藪田 哲郎 横浜国立大学, 工学研究院, 教授 (30323926)
|
研究分担者 |
豊田 希 横浜国立大学, 工学研究院, 研究教員 (60547222)
|
キーワード | 強化学習 / Q学習 / 生物型ロボット / 報酬操作 / 主観報酬 / 前進行動形態 / ハンド |
研究概要 |
今年度は、生物ロボットの行動形態については、静的な運動から動的な運動に研究対象を変化させ、Hoytらが馬の移動形態で示した速度によって移動モードが異なる現象を強化学習で実現できるかを解明した。対象として哺乳類を想定して4足とし、組合せの爆発を防ぐために限定した状態数を用いてシミュレーション実験を進めたが、速度によって移動モードが変化する現象を再現させることができ、強化学習の枠組みの中で移動モード変化が可能なことを明らかにした。この結果は、Hoytらの馬で行動形態の変遷をうまく実現した結果である。 強化学習の客観報酬ではなくて、人間が評価をした主観報酬を用いると、どのような特徴が出てくるかに興味を持ち、イモムシロボットの最大前進移動量を獲得する行動形態に着目して解明を進めた。同一条件の比較を行うと、主観報酬を用いた方がより大きい前進移動量を獲得できた。この原因を解明すると、人間は一連の動きを予想して評価をしているようであり、人間が高い評価を与えた行動形態の主観報酬を客観報酬に組み込むと、前進移動量が大幅に改善されることを明らかにした。 また、強化学習を用いた大車輪ロボットの運動については確率挙動が支配的であることを解明し、学習が収束した学習知識を用いても確率的挙動が残り、初期値の変動によって大車輪運動が実現できない確率が存続することを明らかにした。さらに、赤ちゃんが立つ現象を再現するために、強化学習を用いて人間の直立安定性の研究を始めたが、倒れる現象を体内感覚に置き換えることでロバストな安定性を保持しているような研究結果が得られた。 最後に、マニピュレータ・ハンドシステムで対象物を把持しながら、仮想のインピーダンスを実現する内力外力分離型インピーダンスおよびアドミッタンス制御手法を確立した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
以下に示す理由から、上記の評価ができる。 (1) 生物型ロボットの行動形態の獲得については、問題点はHoytらの行動形態のモード変換を強化学習の枠組みで実現出来るかどうかであったが、これを実現できる結果を獲得したことは大きな進歩である。 (2) 強化学習の報酬として、人間があたえる主観報酬と評価関数から与えられる客観報酬の比較を、イモムシ型ロボットの前進行動の獲得を対象にして行ったが、主観報酬の方が良い結果が得られ、当初の想定どおり人間の報酬はより上位の情報を含んでいる結果が得られた。 (3) 強化学習の大車輪運動の獲得については、実験結果を確率挙動として扱うと、その全体像を解明できること、強化学習を用いた人間の直立安定性については、学習シミュレーションで人間は(倒れる/倒れない)の報酬ではなく、体内感覚の連続量を使っていることが示唆される結果が得られたことは、次のステップに進む大きな進歩である。 (4) マニピュレータ・ハンドシステムでは、物体把持をした時の内力外力のインピーダンス制御手法をインピーダンス制御およびアドミッタンス制御で実現できたことは、大きな進歩といえる。
|
今後の研究の推進方策 |
平成23&24年度はほぼ当初の研究計画を実現できたので、いまだ進展が出来ていない部分を含めて平成25年度は最終年度になるので以下の項目を推進する。 (1) 強化学習の動的行動形態のモード変換について実現できたので、この行動形態が地球以外の重力が異なった惑星では、どのようなモード変換が起こるか等を解明する。 (2) 強化学習を用いた大車輪運動については、確率的な挙動現象として扱う方が全体像解明が進むことが明らかになったので、確率的な挙動からの解明を進める。 (3) 強化学習を用いた人間の直立安定性の確保については、体感情報を用いて学習知識を獲得し、従来のZMP等の制御則との比較を行ってみる。さらには、強化学習を用いて、二足歩行についても挑戦する。 (4) マニピュレータ・ハンドシステムについては、物体把持した時のインピーダンス制御におけるインピーダンス制御とアドミッタンス制御の性能比較、インピーダンスパラメーターの実現性の評価、周波数特性の解明を行う。
|
次年度の研究費の使用計画 |
該当なし
|