2016 Fiscal Year Annual Research Report

物理接触する人支援ロボットのための支援戦略モデルベース強化学習

Research Project

Project/Area Number	16H05876
Research Institution	Nara Institute of Science and Technology
Principal Investigator	松原崇充奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (20508056)
Project Period (FY)	2016-04-01 – 2019-03-31
Keywords	強化学習 / 人支援ロボット / ガウス過程回帰
Outline of Annual Research Achievements	本研究の目的は、物理接触を通じて人を支援するロボットが、被支援者に快適・安全な支援ができるよう、数回程度の実験試行から得られる非常に少ないデータによって、ロボットの制御規則（支援戦略）の自動設計を可能にする技術の確立である。データから制御規則の自動設計を行う「強化学習」に基づく従来技術では「大量データから理論上の最適戦略の学習」を方針とするため、データ収集が被支援者に相当な負担となる物理支援ロボットには適さない。そこで本研究では「少量データから実際上の最適戦略の学習」を目指すというパラダイムシフトにより、実装可能性の高い革新的技術の開発を試みる。本研究の成果は、ダイレクトに被支援者に対するテイラーメイドな支援に応用できるため、支援ロボットによる新産業・サービスの創出を可能にする。初年度では、理論およびアルゴリズムの導出後、簡易的な物理シミュレーションにより、データの不足性を考慮する提案手法の有効性を確認した。具体的には、データの充足領域はモデルの予測分散が低く、不足領域は高く推定されるため、「データ不足性＝分散」とした合理的にモデル化できるガウス過程回帰に注目した。この手法をダイナミクスおよび方策モデルの学習に利用するモデルベース強化学習の枠組みを開発した。また、次年度に予定している実験システムの構築に向けて、柔軟関節を持ち人と安全かつしなやかに物理接触インタラクションが可能な双腕ロボットを購入し、その基本的な制御ソフトウェアを整備した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason わずかなデータからモデルを学習する際に「データ不足性」を陽にモデル化するために、確率分布を利用する枠組みを検討した。システムの状態遷移をガウス分布と仮定すると、ガウス過程回帰と呼ばれる機械学習技術が利用できる。データの充足領域はモデルの予測分散が低く、不足領域は高く推定されるため、「データ不足性＝分散」とした合理的にモデル化できる。まず、ガウス過程回帰によって制御対象のモデルを学習し、方策型強化学習の方策評価に利用するモデルベース強化学習の枠組みを検討した。EM方策探索と呼ばれる方策ベースの強化学習手法に実装することで、従来手法よりも少ないサンプル数で効率的に制御方策が学習可能であることを物理シミュレーションで確認した。次に、物理接触を含む制御問題を扱うために、強い非線形性を有する方策を学習可能にする枠組みを検討した。具体的には、EM方策探索において、ガウス過程回帰を方策モデルとしても利用できるように拡張した。これにより、物理接触を通じて人を支援するロボットの支援戦略の強化学習に適した、高いサンプル効率かつ複雑な非線形方策を取り扱える枠組みが構築できたと考えている。
Strategy for Future Research Activity	今年度に開発した強化学習手法をベースとして、次年度は1)双腕ロボットを用いた物理接触による人支援プラットフォームの構築と、2)快適性の定義、安全性の定式化方法の開発を行う。 1)今年度に購入した柔軟関節を持ち人と安全かつしなやかに物理接触インタラクションが可能な双腕ロボット（Baxter, rethink robotics社）をベースに、快適性や安全性の実装のため、光学式モーションキャプチャ、マイク、衣類内側に分布配置できる小型負荷センサ等を購入し、当研究室で所有する筋電図計(16ch)と統合することで同時計測可能な評価システムを構築する。さらにROSやMATLABなどを利用したミドルウェア環境も整備する。 2) 快適性の定義として、a)筋電図や負荷力などの生体信号に基づく客観的定義と、b）発話(Yes, Noなど簡単な単語)に基づく主観的定義を比較・検討する。a)は明確に発話できない被支援者にも適用できるが、設備が複雑化する。信号の信頼度も低い。b)はマイクなどで簡単に測れるが、明確に意思表示できる被支援者に限定されるデメリットがあり相補性がある。安全性の基準については、ロボットの発生トルクや、被支援者に受ける負荷や筋電図に基づいて定義する。それらを状態・行動に関する等式・不等式制約の形に定式化し、今年度に開発した強化学習法に組み込む。

Research Products
(1 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results)

[Journal Article] Active Tactile Exploration with Uncertainty and Travel Cost for Fast Shape Estimation of Unknown Object2017
- Author(s)
  Takamitsu Matsubara and Kotaro Shibata
- Journal Title
  
  Robotics and Autonomous System
  
  Volume: 91 Pages: 314-326
- DOI
  http://doi.org/10.1016/j.robot.2017.01.014
- Peer Reviewed / Acknowledgement Compliant