研究課題/領域番号 |
23500275
|
研究機関 | 横浜国立大学 |
研究代表者 |
藪田 哲郎 横浜国立大学, 工学(系)研究科(研究院), 教授 (30323926)
|
研究分担者 |
豊田 希 横浜国立大学, 工学(系)研究科(研究院), 研究教員 (60547222)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | 強化学習 / Q学習 / 生物型ロボット / スポーツ型ロボット / 前進歩行形態 / 大車輪運動 / 報酬操作 |
研究概要 |
状態空間分割を用いた強化学習の枠組みを用いると、設計者が周期情報を与えなくても、強化学習の時系列的な評価関数構造から、生物型移動ロボットが自律的に静的な行動形態の獲得が実現できる手法を用いて、脊椎動物と無脊椎動物を対象に生物進化の道を辿ってみた。具体的な対象としては、6足の昆虫タイプ、4足の爬虫類タイプ、および4足で脊椎の自由度がない爬虫類タイプの前進行動獲得の検討を行った。前進距離を報酬として行動形態を学習させると、6足の昆虫タイプは昆虫の同様な、4足の爬虫類タイプはヤモリと同様な行動形態を獲得した。エネルギ効率の観点から比較すると、脊椎有4足爬虫類タイプは約20%のエネルギ改善が認められ、脊椎を前進行動に利用することでエネルギ効率の改善が図れることを明らかにした。続いて、前進距離の最大化とエネルギの最小化を図る報酬を用いて学習を行うと、単位時間当たりの前進距離が変化してもエネルギ効率の殆ど変化しない結果が得られ、Hoytらが指摘した馬の歩行モードによってエネルギ効率が変化しない結果を低速度領域で示すことができた。 また身体性については、6足の昆虫型ロボットの脚の位置について検討をした。前脚、中間脚、後ろ脚の間隔が等間隔の場合と、後ろ脚が前脚及び中間脚と離れた位置にある場合の歩行形態を比較し、等間隔ではバタフライ歩行形態、後ろ脚の位置が後ろにある場合は交互型の昆虫のような歩行形態が出現することを明らかにした。また、前進距離も交互型歩行形態の場合が最も大きく、後ろ脚の位置が後方にずれているカブト虫の歩行形態と身体性と類似の結果が得られた。 強化学習を用いた大車輪ロボットの行動獲得の研究については、学習知識の選択性について、前回りと後ろ回りの混在する学習知識に、それぞれの方向の確率が増加する学習アルゴリズムを開発し、実システムに適用した結果大幅に向上させることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1)生物型ロボットの行動形態の獲得については、6足の昆虫型ロボットおよび4足のヤモリ型ロボットを対象にして前進距離最大化報酬および前進距離最大化+消費エネルギ最小化報酬を用いて、その行動形態の解明を行う。この問題については、研究実績概要に示すように、実際の昆虫およびヤモリの行動形態の類似性、4足のヤモリ型ロボットについては、脊椎有無のエネルギ効率、前進距離最大化+消費エネルギ最小化報酬を用いれば、歩行形態が変化してもエネルギ効率は変化しないという哺乳類の歩行形態とエネルギと似た関係が得られ、この問題については充分な達成度を確保できた。(2)身体性と行動形態の解明を6足の昆虫型ロボットで行う。この課題も実績概要で触れたが、前脚、中間脚、後ろ脚の間隔によって歩行形態が変化し、昆虫タイプのように後ろ脚が離れていると最も大きな前進移動距離が獲得できることを明らかにしたが、この問題は奥が深く、今後も検討課題として残ると考える。(3)強化学習を用いて、動的運動ロボットである大車輪ロボットの複数報酬と大車輪運動の解明を行うことであった。この課題については、学習の獲得知識の選択性の問題について、実績概要に触れたように今年度は取り組んだ。前回りと後ろ回りが混在する学習知識に、前回りと後ろ回りの実現する確率を向上させる学習手法を考案したので、十分な達成度と考えられる。(4)フィンガ・アームロボットシステムの人間のスキル獲得については、人間のヨーヨー運動のスキルをロボットシステムにインプリメントし、ヨーヨー運動を20秒以上実現させたことで十分な達成度を実現できたと考える。
|
今後の研究の推進方策 |
上記に示すように、平成23年度は十分な達成度が得られたので、引き続き研究実施計画として以下の項目を推進する。(平成24年度)(1)強化学習を用いた生物型ロボットの行動形態の獲得については、静的な行動形態から、より動的な行動形態の獲得に挑戦する。特に、移動速度が変化した時の運動モード変化を明らかにする。また、身体性と行動形態の関係についての検討も進める。(2)大車輪の学習には、初期の振幅を大きくする励振モード、大車輪を実現する大車輪実現モードが存在するので、サブゴール問題を有する問題となる。各種報酬を用いて、どのような報酬を用いた時にサブゴール問題を乗り切れるかを明らかにする。(3)人間の学習には、コーチまたは真似をする先輩らが与える主観評価があります。強化学習で用いている客観報酬と、主観報酬の比較検討を行う。また、客観報酬と主観報酬を組み合わせた学習を行うことで、生物型ロボットの前進行動と大車輪ロボットのサブゴール問題の克服を試みる。(4)フィンガ・マニピュレータシステムにおいては、フィンガとアームの個別のインピーダンスまたはアドミタンスを付与した時の特性を解明する。(平成25年度)(1)生物型ロボットを用いて行動形態の進化を解明してきたが、地球以外での生物の行動形態獲得を目指して重力が変化した場合の行動形態を解明する。(2)行動形態の獲得として最も興味を持たれるのは、人間の赤ちゃんが這い這いから、直立、そして2足歩行に移る問題に取り組む。(3)フィンガ・マニピュレータシステムにおいては、アドミッタンス制御と周波数特性の関連を解明する。
|
次年度の研究費の使用計画 |
直接費は1,100千円なので、消耗品関連の物品費に600千円、成果発表の学会旅費関連に300千円、その他の項目として論文投稿費として200千円を使用計画とする。
|