本研究の目的は、物理接触を通じて人を支援するロボットが、被支援者に快適・安全な支援ができるよう、実験試行から得られる非常に少ないデータのみから、ロボットの制御規則(支援戦略)の自動設計を可能にする技術の確立である。最終年度であるH30年度では、前年度に開発したモデルベース強化学習アルゴリズムの改善、およびプロトタイピングした実験プラットフォームを用いた被験者実験を通じて、人を物理接触によって支援するロボットについて快適性・安全性を満たす支援戦略の自動設計技術の確立を目指した。 理論およびアルゴリズムに関しては前年度に引き続き、支援戦略の方策モデルとしてガウス過程を用いる際に生じる問題を回避できるアルゴリズムを開発した。具体的には次の2つである。1)筋電やモーションキャプチャのセンサデータから方策の評価信号である報酬値を算出する際に、ノイズや外乱が避けられない問題に対して、尤度関数にステューデントのt分布を用いたアルゴリズム拡張、2)制御方策がパラメトリック関数で与えられる場合に、ベイズ最適化を用いた支援戦略の学習アルゴリズムを開発した。 評価実験では、前年度に開発した減速機の反トルクによるパッシブ型膝動作支援デバイスと、モーションキャプチャおよび筋電図(16ch)を統合した実験用システムを構築した。定常歩行動作を対象に被験者実験を実施し、提案手法の有効性や安全性を定量的に評価した。報酬関数の評価については、被験者の筋電量およびロボットの回生エネルギーに着目した基準を考案した。複数被験者ならびにさまざまな路面状況において、比較的少量の実験データのみから、ユーザや状況に応じたテーラーメードな支援が達成できることを実験的に確認した。
|