2020 Fiscal Year Annual Research Report
Development of deep learning to reveal physical human-robot interaction and its application to safe robot control
Project/Area Number |
20H04265
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
小林 泰介 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (10796452)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 深層学習 / 潜在空間抽出 / 強化学習 |
Outline of Annual Research Achievements |
本研究では,多自由度系のロボットとヒトとの物理的接触を安全にするための学習制御技術開発を目的としている.これに向けて2020年度では,i)高次元観測情報に潜む潜在的な低次元の状態を抽出するための深層学習技術の開発,およびii)方策の学習をより慎重なものとすることで安全かつ高性能なものを獲得するための強化学習技術の開発を実施した. i)の潜在空間抽出では,従来技術である変分オートエンコーダが潜在空間に情報を抽出する働きと空間そのものを滑らかに整える働きのトレードオフにある問題の解決を目指した.具体的には,ツァリス統計に基づく新たな変分オートエンコーダの定式化を通じて,2つの働きのバランスを観測依存で適応的に調整する機構を数理的に導いた.また,複数の働きを満たそうとすることから,本問題を多目的最適化問題と捉えることにより,任意のパレート解を発見可能とする拡大チェビシェフ法を用いた手法を開発した.これらはどちらも潜在空間上に構築したダイナミクスでの長期予測の精度向上に貢献した. ii)の強化学習では,深層強化学習において広く普及している学習安定化手法であるターゲットネットワークの更新則が外れ値に脆弱であることに注目した.すなわち,目標信号を生成するターゲットネットワークが誤った情報を取り入れてしまうことで,その後の目標信号を誤ったものにしてしまうリスクである.この問題を外れ値に頑健とされるべき乗則に従う更新則を新たに導入することによって解決した.また,方策改善に制約を与えるProximal Policy Optimizationと呼ばれる最新手法に対して,その制約が非対称かつヒューリスティックな設計であったため,これらを同時に解決する相対ピアソンダイバージェンスに基づいた制約の設計を達成した.両手法とも強化学習のベンチマークタスクにおいて学習性能向上に寄与することを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ロボットとヒトとの物理的接触という目標となる問題設定自体には未だ十分に着手していないものの,類似問題に対して有用な基盤技術の開発が大いに進んだ.特に,得られた潜在空間の抽出技術で構築された潜在空間上でのダイナミクスを活用したモデル予測制御の数値シミュレーションは既に実施しており一定の成果を挙げている.このことから,物理的接触を扱う上での精査・改善は必要と考えるものの,十分な下地を整えられたといえる.
|
Strategy for Future Research Activity |
2020年度に得られた成果を基に,i)潜在空間の抽出技術の物理的接触を陽に扱っていくための改良,ii)潜在空間上での制御技術の確立,iii)実機実験を通じた開発した技術の実証を進める. i)では,開発した技術に含まれる新たなハイパーパラメータのメタ最適化問題を新たに考える必要があり,これを物理的接触という実問題に照らし合わせて構築することを目指す.また,ii)の制御に繋げるべく,マルコフ性を満たすような潜在空間の構築についても合わせて検討する. ii)では,これまでに培ってきた安定した学習が可能な強化学習に加えて,潜在空間の構築と同時に最適化されるような手法について検討する.また,モデル予測制御を適用する上で,計算コストが実用上の大きな課題となることが見えてきたため,実時間運用可能な改善を目指す. iii)では,ヒトとの物理的接触を陽に検出可能な移動ロボットを用いたベンチマーク・デモンストレーション課題を具体化して,開発した技術を評価・実証する.
|