研究課題/領域番号 |
20H04265
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
小林 泰介 奈良先端科学技術大学院大学, 先端科学技術研究科, 客員助教 (10796452)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 深層学習 / 潜在空間抽出 / 強化学習 |
研究実績の概要 |
本研究では,多自由度系のロボットとヒトとの物理的接触を安全にするための学習制御技術開発を目的としている.これに向けて2022年度では,i)人と間接的に物理的接触する課題における潜在空間の抽出,ii)環境との離散的な接触状況が切り替わる脚ロボットへの強化学習の適用,iii)Sim-to-Real技術の物理的接触を扱う実ロボットへの適用,の3項目を中心に研究を実施した. i)では,人とロープを介してインタラクションするロボットを用いた実機実験にて,人とロボットが協働でロープを動かす動作時の人の骨格データを潜在空間へと抽出する課題を実施した.周期的な時系列データであることに注目して,変分オートエンコーダに複素型リザーバコンピューティングと潜在ダイナミクスモデルを組み込んだ世界モデルを用いることで,異なる動作を容易に区別可能な潜在空間の獲得と予測精度の向上を実現した. ii)では,脚ロボットの歩行制御課題に対して,End-to-Endでダイナミクスを学習するよりも,接触状況に応じてダイナミクスを陽に分割して学習したほうが予測精度が高まることがわかった.この結果より,接触状況により変化するダイナミクスを明確に区別できる潜在空間の重要性を改めて確認した. iii)では,実世界での学習コストを軽減すべく,ドメイン乱択化・適応を統合した新しい強化学習理論を提案した.具体的には,ドメイン乱択化を多目的最適化問題として解釈することで,実環境を選好解とみなすことを理論的に保証した.この理論により,ロボットハンドによるバルブ操作スキルをシミュレーション上で学習した後に実ロボットでも即座に達成することに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでに培ってきた深層学習技術や強化学習技術を駆使することで,実世界において人とロボットのインタラクションがある課題や物理的接触の状況が変化する課題に関して,比較的単純な実験ながらも着実に潜在空間の抽出や制御を達成している.
|
今後の研究の推進方策 |
2022年度に得られた成果を基に,i)世界モデルのスパース・多目的学習技術の確立,ii)実機実験による検証,の2項目を進める. i)では,これまでに数理的に導出を進めてきたスパースな潜在空間の抽出技術および世界モデルの学習について,多目的最適化技術を活用して改善する.特に,潜在空間のスパース化を達成したツァリス統計に基づいて世界モデル全体の最適化問題を導出することで,短期予測から徐々に長期予測精度を高めるようなメカニズムを発現させつつ各予測長を異なる目的とした多目的最適化問題を導出する. ii)では,これまでに構築してきたロボットシステムを駆使して,最終成果に相当する,i)で開発する新手法をデモンストレーションする.例えば,人と触れ合った状態での脚ロボットの歩行や,移動マニピュレータによる物体の受け渡しなどを実施することを目指す.
|