研究課題
本研究では,多自由度系のロボットとヒトとの物理的接触を安全にするための学習制御技術開発を目的としている.これに向けて2021年度では,i)高次元観測情報に潜む潜在的な低次元の状態を抽出するための深層学習技術の開発,ii)より高効率かつ安全に学習可能な強化学習技術の開発,iii)観測に含まれるノイズに対して頑健に学習可能な強化学習技術の開発,の3項目を中心に研究を実施した.i)の潜在空間抽出では,2020年度に提案したツァリス統計に基づく新たな変分オートエンコーダの解析を進めることで,学習がより安定に進むよう再定式化した.また,新しい最適化問題を通じて得られる潜在空間がスパースになる条件を解析的に明らかにした.スパースな潜在空間を有効活用するためのマスク処理を施すモデルベース強化学習のフレームワークを提案し,従来手法と比べて高効率に最適解を見出だせることを実機実験で実証した.ii)の高効率かつ安全な強化学習では,深層強化学習に不適とされていた適正度履歴を改良した,非定常に目的が切り替わるようなオンライン学習環境下でも適応的に目的を効率良く達成できるアルゴリズムを開発した.また,確率推論問題として解釈した強化学習の最適化問題を改良することで,エージェントが悲観的に学習してリスクを回避しやすくなる新理論を提案した.iii)のノイズに頑健な強化学習では,ノイズ除去のために平滑化フィルタを加えた場合にも強化学習が理論的に成立するための状態拡張を検証した.また,ノイズ除去の悪影響で関数の表現力が低下してしまう問題を回避する新しい局所的な正則化手法を開発した.特に後者は,過学習の抑制にも貢献することを確認した.
2: おおむね順調に進展している
コロナ禍のため実験機器の入手やセットアップには遅れが生じたものの,必要とされる基盤技術である潜在空間を抽出する深層学習と強化学習は理論的に大いに発展した.また,物理的接触を扱う前段として,実機実験にて提案手法の実証を開始しており一定の成果を挙げている.
2021年度に得られた成果を基に,i)人と間接的に物理的接触する課題における潜在空間の抽出,ii)環境との離散的な接触状況が切り替わる脚ロボットへの強化学習の適用,iii)Sim-to-Real技術の物理的接触を扱う実ロボットへの適用,の3項目について研究を進める.i)では,人とロボットが縄などを介して物理的に相互作用する環境において,複数の動作パターンが適切に潜在空間上で分類可能か検証する.ii)では,開発してきた技術の新たな応用先の一つとして脚ロボットを例に,環境との接触状況の切り替わりを陽に扱うフレームワークを開発する.iii)では,近年発展した並列シミュレーション技術を活用して多様な環境に頑健な方策を学習するとともに,実環境のオンライン同定と組み合わせて僅かな試行で実環境の課題を達成するフレームワークの開発を目指す.
すべて 2022 2021
すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件)
Robotics and Autonomous Systems
巻: 151 ページ: 104019~104019
10.1016/j.robot.2021.104019
Journal of the Robotics Society of Japan
巻: 40 ページ: 251~254
10.7210/jrsj.40.251