2017 Fiscal Year Research-status Report
運動学習プリミティブと応答曲面法による冗長ロボットの最適運動決定
Project/Area Number |
17K14622
|
Research Institution | Nagoya University |
Principal Investigator |
有泉 亮 名古屋大学, 工学研究科, 助教 (30775143)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 応答曲面法 / ロボット / 学習 / データ駆動 |
Outline of Annual Research Achievements |
ロボットの運動を強化学習により習得する研究は広くなされているが,多くの場合,探索空間が連続であることや観測ノイズの存在から,膨大な回数の試行を必要とする.このために,実機実験を基にした運動習得は困難である.また,ロボットの強化学習で良く用いられる方策勾配に基づく方法では,初期解付近の局所最適解しか求めることはできない.本研究では,これらの困難さが存在する中でも適用可能で,かつ,より多様な動きに適用でき,しかも局所最適に陥りにくい学習の枠組みを以下を達成することにより提案する. 1.比較定低次元な問題に適用先が限定されていた応答曲面法に対し,高次元問題への対応法を提案する.特にロボットを想定した対応法を提案する.この点は,少ない試行回数で最適化を達成可能な手法の適用範囲を広げる試みである. 2.ロボットの運動表現としては運動学習プリミティブを用いることで,幅広い運動を比較的少ないパラメータで表現する.この点については,強化学習の分野で広く行われていることであり,柔軟な運動をなるべく少ないパラメータで表現する試みである. これら2点を組み合わせることが,本研究における重要な点である.1点目に関してはシミュレーションの援用が鍵である.応答曲面法や一般的な強化学習を含む多くのデータ駆動型の手法においては,システムの物理モデルに含まれるモデル化誤差の影響により,モデルを用いない場合より学習結果が悪化してしまうことも多い.このような現象を防ぎつつ,有効にシミュレーションモデルを活用する方法を提案する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
以下のように,当初一年目に予定していた内容の一部に進展が不十分な点が存在するものの,二年目に予定していた内容の一部がすでに終了している.また,当初は想定していなかった新しい知見も得られている. 当初計画では,一年目においては提案する手法のロバスト性評価を行う予定であった.しかし,ロバスト性評価のための適切な指標の発見には至っていない.探索空間が1次元の場合には,適切と予想される指標は見つかっているが,探索空間が多次元になると,その指標と最適化のパフォーマンスとの間の相関は小さくなることが確認されている.しかしこの点について議論を深めることは現状では困難と考え,先に,ロボットへ適用した場合の有効性検証を進めることとした. ロボットへの適用については,多関節ロボットによるけん玉タスクを考えた.実機実験の代わりにVREPを用いた物理シミュレーションを用い,最適化を加速するための低コストなシミュレーションとしては,Matlab上で構築した運動学シミュレーションを利用するとした.物理シミュレータ上でのロボットの挙動は現実のものとは差異があるが,運動学シミュレータと比べるとかなり実機実験に近いものであり,実際の手法適用状況の再現としては十分であると判断している.検証の結果は良好であり,現在,国際学会誌への投稿を想定し結果をまとめている.また,成果の一部は計測自動制御学会制御部門マルチシンポジウムにて発表している. 加えて,元々の計画にはないが,本研究で用いた運動学習プリミティブによる運動表現の考え方を拡張し,データ駆動制御の問題に応答曲面法を適用できるのではないかという発想を得た.現在,検証の準備を進めている.
|
Strategy for Future Research Activity |
現在までの成果をまとめて,国際学会誌へ投稿する予定で準備を進めている.その際,提案した手法のみならず,他の強化学習など競合しうる手法との比較を十分に行う必要があると考えられる.このため,他手法による試験を実施する. 一方,提案法の有効性は基本的は現在までの成果でおおよそ示せたと考えている.そこで,手法の検証ではなく,手法を応用することによる新たな運動の獲得を主眼としたヘビ型ロボットによる実験を行う.ヘビ型ロボットは1年目に作成する予定であったが,アクチュエータの販売日のずれなどもあり,組み立てに至っていない.ヘビ型ロボットを組み立て,実機検証の準備を進める他,物理シミュレータ上での試験を行う. また,研究を通して得られた知見を基に,新たなデータ駆動制御の枠組みが作成できるのではないかというアイデアを得ている.今後,この知見に基づいて予備的な検証を行う. 最後に,ロバスト性に関する検証について,再度考察を試みる.少なくとも探索空間が1次元である場合には,ある程度指標として使えそうな量が見つかっており,また,その指標を発見するに至った理論的背景は,本来,探索空間の次元には依存しないものである.この指標が多次元で十分に機能しない原因としては,考察の際に加えた種々の近似が影響していると考えられる.つまり,使用した近似が十分によい近似となっていない可能性が高いと考えている.具体的にどの近似がどのような理由でよい近似になっていないかを考察し,その結果からより良い指標の手掛かりが得られないか検証する.
|