研究課題/領域番号 |
16H05876
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松原 崇充 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (20508056)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 強化学習 / 人支援ロボット / ガウス過程回帰 |
研究実績の概要 |
本研究の目的は、物理接触を通じて人を支援するロボットが、被支援者に快適・安全な支援ができるよう、数回程度の実験試行から得られる非常に少ないデータによって、ロボットの制御規則(支援戦略)の自動設計を可能にする技術の確立である。データから制御規則の自動設計を行う「強化学習」に基づく従来技術では「大量データから理論上の最適戦略の学習」を方針とするため、データ収集が被支援者に相当な負担となる物理支援ロボットには適さない。そこで本研究では「少量データから実際上の最適戦略の学習」を目指すというパラダイムシフトにより、実装可能性の高い革新的技術の開発を試みる。本研究の成果は、ダイレクトに被支援者に対するテイラーメイドな支援に応用できるため、支援ロボットによる新産業・サービスの創出を可能にする。
初年度では、理論およびアルゴリズムの導出後、簡易的な物理シミュレーションにより、データの不足性を考慮する提案手法の有効性を確認した。具体的には、データの充足領域はモデルの予測分散が低く、不足領域は高く推定されるため、「データ不足性=分散」とした合理的にモデル化できるガウス過程回帰に注目した。この手法をダイナミクスおよび方策モデルの学習に利用するモデルベース強化学習の枠組みを開発した。また、次年度に予定している実験システムの構築に向けて、柔軟関節を持ち人と安全かつしなやかに物理接触インタラクションが可能な双腕ロボットを購入し、その基本的な制御ソフトウェアを整備した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
わずかなデータからモデルを学習する際に「データ不足性」を陽にモデル化するために、確率分布を利用する枠組みを検討した。システムの状態遷移をガウス分布と仮定すると、ガウス過程回帰と呼ばれる機械学習技術が利用できる。データの充足領域はモデルの予測分散が低く、不足領域は高く推定されるため、「データ不足性=分散」とした合理的にモデル化できる。 まず、ガウス過程回帰によって制御対象のモデルを学習し、方策型強化学習の方策評価に利用するモデルベース強化学習の枠組みを検討した。EM方策探索と呼ばれる方策ベースの強化学習手法に実装することで、従来手法よりも少ないサンプル数で効率的に制御方策が学習可能であることを物理シミュレーションで確認した。次に、物理接触を含む制御問題を扱うために、強い非線形性を有する方策を学習可能にする枠組みを検討した。具体的には、EM方策探索において、ガウス過程回帰を方策モデルとしても利用できるように拡張した。これにより、物理接触を通じて人を支援するロボットの支援戦略の強化学習に適した、高いサンプル効率かつ複雑な非線形方策を取り扱える枠組みが構築できたと考えている。
|
今後の研究の推進方策 |
今年度に開発した強化学習手法をベースとして、次年度は1)双腕ロボットを用いた物理接触による人支援プラットフォームの構築と、2)快適性の定義、安全性の定式化方法の開発を行う。
1)今年度に購入した柔軟関節を持ち人と安全かつしなやかに物理接触インタラクションが可能な双腕ロボット(Baxter, rethink robotics社)をベースに、快適性や安全性の実装のため、光学式モーションキャプチャ、マイク、衣類内側に分布配置できる小型負荷センサ等を購入し、当研究室で所有する筋電図計(16ch)と統合することで同時計測可能な評価システムを構築する。さらにROSやMATLABなどを利用したミドルウェア環境も整備する。 2) 快適性の定義として、a)筋電図や負荷力などの生体信号に基づく客観的定義と、b)発話(Yes, Noなど簡単な単語)に基づく主観的定義を比較・検討する。a)は明確に発話できない被支援者にも適用できるが、設備が複雑化する。信号の信頼度も低い。b)はマイクなどで簡単に測れるが、明確に意思表示できる被支援者に限定されるデメリットがあり相補性がある。安全性の基準については、ロボットの発生トルクや、被支援者に受ける負荷や筋電図に基づいて定義する。それらを状態・行動に関する等式・不等式制約の形に定式化し、今年度に開発した強化学習法に組み込む。
|