2021 年度実績報告書

ヒトとの物理的接触モデルを紐解く深層学習の開発と安全なロボット制御への応用

研究課題

研究課題/領域番号	20H04265
研究機関	奈良先端科学技術大学院大学
研究代表者	小林泰介奈良先端科学技術大学院大学, 先端科学技術研究科, 客員助教 (10796452)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	深層学習 / 潜在空間抽出 / 強化学習
研究実績の概要	本研究では，多自由度系のロボットとヒトとの物理的接触を安全にするための学習制御技術開発を目的としている．これに向けて2021年度では，i)高次元観測情報に潜む潜在的な低次元の状態を抽出するための深層学習技術の開発，ii)より高効率かつ安全に学習可能な強化学習技術の開発，iii)観測に含まれるノイズに対して頑健に学習可能な強化学習技術の開発，の3項目を中心に研究を実施した． i)の潜在空間抽出では，2020年度に提案したツァリス統計に基づく新たな変分オートエンコーダの解析を進めることで，学習がより安定に進むよう再定式化した．また，新しい最適化問題を通じて得られる潜在空間がスパースになる条件を解析的に明らかにした．スパースな潜在空間を有効活用するためのマスク処理を施すモデルベース強化学習のフレームワークを提案し，従来手法と比べて高効率に最適解を見出だせることを実機実験で実証した． ii)の高効率かつ安全な強化学習では，深層強化学習に不適とされていた適正度履歴を改良した，非定常に目的が切り替わるようなオンライン学習環境下でも適応的に目的を効率良く達成できるアルゴリズムを開発した．また，確率推論問題として解釈した強化学習の最適化問題を改良することで，エージェントが悲観的に学習してリスクを回避しやすくなる新理論を提案した． iii)のノイズに頑健な強化学習では，ノイズ除去のために平滑化フィルタを加えた場合にも強化学習が理論的に成立するための状態拡張を検証した．また，ノイズ除去の悪影響で関数の表現力が低下してしまう問題を回避する新しい局所的な正則化手法を開発した．特に後者は，過学習の抑制にも貢献することを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由コロナ禍のため実験機器の入手やセットアップには遅れが生じたものの，必要とされる基盤技術である潜在空間を抽出する深層学習と強化学習は理論的に大いに発展した．また，物理的接触を扱う前段として，実機実験にて提案手法の実証を開始しており一定の成果を挙げている．
今後の研究の推進方策	2021年度に得られた成果を基に，i)人と間接的に物理的接触する課題における潜在空間の抽出，ii)環境との離散的な接触状況が切り替わる脚ロボットへの強化学習の適用，iii)Sim-to-Real技術の物理的接触を扱う実ロボットへの適用，の3項目について研究を進める． i)では，人とロボットが縄などを介して物理的に相互作用する環境において，複数の動作パターンが適切に潜在空間上で分類可能か検証する． ii)では，開発してきた技術の新たな応用先の一つとして脚ロボットを例に，環境との接触状況の切り替わりを陽に扱うフレームワークを開発する． iii)では，近年発展した並列シミュレーション技術を活用して多様な環境に頑健な方策を学習するとともに，実環境のオンライン同定と組み合わせて僅かな試行で実環境の課題を達成するフレームワークの開発を目指す．

研究成果
(6件)

すべて 2022 2021

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件)

[雑誌論文] Adaptive and multiple time-scale eligibility traces for online deep reinforcement learning2022
- 著者名/発表者名
  Kobayashi Taisuke
- 雑誌名
  
  Robotics and Autonomous Systems
  
  巻: 151 ページ: 104019～104019
- DOI
  10.1016/j.robot.2021.104019
- 査読あり
[雑誌論文] Sparse Latent Space Acquisition with Variational Autoencoders Based on Tsallis Statistics2022
- 著者名/発表者名
  Watanuki Ryoma、Kobayashi Taisuke、Sugimoto Kenji
- 雑誌名
  
  Journal of the Robotics Society of Japan
  
  巻: 40 ページ: 251～254
- DOI
  10.7210/jrsj.40.251
- 査読あり
[学会発表] 強化学習における指数移動平均フィルタの統合2021
- 著者名/発表者名
  佐伯雄飛，小林泰介，杉本謙二
- 学会等名
  日本ロボット学会学術講演会
[学会発表] カルバック・ライブラ情報量に関する最適化問題としてのリスク回避型強化学習の提案2021
- 著者名/発表者名
  小林泰介
- 学会等名
  日本ロボット学会学術講演会
[学会発表] ツァリス統計に基づく変分オートエンコーダによるスパースな潜在空間の獲得2021
- 著者名/発表者名
  綿貫零真，小林泰介，杉本謙二
- 学会等名
  日本ロボット学会学術講演会
[学会発表] 強化学習における局所リプシッツ連続に関する正則化2021
- 著者名/発表者名
  小林泰介
- 学会等名
  自律分散システム・シンポジウム

2021 年度 実績報告書

ヒトとの物理的接触モデルを紐解く深層学習の開発と安全なロボット制御への応用

研究代表者

小林 泰介 奈良先端科学技術大学院大学, 先端科学技術研究科, 客員助教 (10796452)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Adaptive and multiple time-scale eligibility traces for online deep reinforcement learning2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Sparse Latent Space Acquisition with Variational Autoencoders Based on Tsallis Statistics2022

著者名/発表者名

雑誌名

DOI

[学会発表] 強化学習における指数移動平均フィルタの統合2021

著者名/発表者名

学会等名

[学会発表] カルバック・ライブラ情報量に関する最適化問題としてのリスク回避型強化学習の提案2021

著者名/発表者名

学会等名

[学会発表] ツァリス統計に基づく変分オートエンコーダによるスパースな潜在空間の獲得2021

著者名/発表者名

学会等名

[学会発表] 強化学習における局所リプシッツ連続に関する正則化2021

著者名/発表者名

学会等名

2021 年度実績報告書

小林泰介奈良先端科学技術大学院大学, 先端科学技術研究科, 客員助教 (10796452)