研究課題/領域番号 |
16H05876
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松原 崇充 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (20508056)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 強化学習 / 人支援ロボット / ガウス過程回帰 / 重複混合ガウス過程回帰 |
研究実績の概要 |
本研究の目的は、物理接触を通じて人を支援するロボットが、被支援者に快適・安全な支援ができるよう、数回程度の実験試行から得られる非常に少ないデータによって、ロボットの制御規則(支援戦略)の自動設計を可能にする技術の確立である。データから制御規則の自動設計を行う「強化学習」に基づく従来技術では「大量データから理論上の最適戦略の学習」を方針とするため、データ収集が被支援者に相当な負担となる物理支援ロボットには適さない。そこで本研究では「少量データから実際上の最適戦略の学習」を目指すというパラダイムシフトにより、実装可能性の高い革新的技術の開発を試みる。本研究の成果は、ダイレクトに被支援者に対するテイラーメイドな支援に応用できるため、支援ロボットによる新産業・サービスの創出を可能にする。
H29年度では、まず理論およびアルゴリズムに関して、前年度で開発したガウス過程に基づくモデルベース強化学習について改良を実施した。重複混合ガウス過程を方策モデルとして採用し、同一状態において、最適な支援行動に複数の候補がある場合にも適切に方策改善を実行できる強化学習アルゴリズムを提案した。次に、実験システム構築に関して、前年度に整備を進めたシステムに加えて、より直接的に物理接触インタラクションが発生する運動支援装具を開発した。安全性に配慮して、発電時の回転抵抗を制動力として利用する回生ブレーキによる膝関節支援装具型ロボットを設計およびプロトタイピングした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
今年度は、快適性の定義や安全性の定式化方法の開発などを予定していたが、前年度に開発した強化学習アルゴリズムでは、人の多様な行動を支援する方策としては表現能力が不十分となる問題に直面したため予定を変更し、アルゴリズムの本質的な拡張を優先して行った。より詳細には、前年度版の手法では、方策モデルとしてガウス過程を用いていたが、人の多様な行動を支援する方策としては表現能力が不十分であることに気がついた。特に、同一状態において、最適な支援行動に複数の候補がある場合、ガウス過程ではそれらの平均を捉えてため、結果的に不適切な支援行動を学習する問題を確認した。そこで、そのような状況に適した重複混合ガウス過程を方策モデルとして利用し、その方策改善を実行できる強化学習アルゴリズムを提案した。物理シミュレーションへの適用を通じてその有効性を確認した。また、実験システムの構築についても、安全性に配慮して、発電時の回転抵抗を制動力として利用する回生ブレーキによる膝関節支援装具型ロボットを設計およびプロトタイピングした。さらに、被支援者の受ける負荷や筋電図を同時計測するように、センサおよび計測システムの統合も行った。本質的に安全性が高いため、今後の提案技術の有用性を被験者実験によって実施する際に、有用なシステムが構築できたと考えている。
|
今後の研究の推進方策 |
最終年度であるH30年度では、以下の二つの課題について取り組む。 1)H29年度に未完成だった、快適性の定義、安全性の定義の定式化方法を開発する。快適性の定義として、a)筋電図や負荷力などの生体信号に基づく客観的定義と、b)発話(Yes, Noなどの簡単な単語)に基づく主観的な定義を比較・検討したい。これらは、当初今年度の実施を予定していた。次年度前半でこれらについて検討するとともに、提案技術の有効性を検証する被験者実験に取り入れる予定である。 2)H30年度に改良を行った強化学習手法をベースとして、a)双腕ロボットを用いた物理接触支援タスクと、b)回生ブレーキ膝関節支援装具型を用いた物理接触歩行運動支援タスクの二つのタスクについて、被験者による強化学習実験を実施する。提案技術の有効性を定量評価するとともに、残された課題を整理する。
|