2021 Fiscal Year Research-status Report
Discrete and Continuous Reinforcement Learning with a Library of Skills and its Application to Robotic Food Manipulation
Project/Area Number |
21K12070
|
Research Institution | Tohoku University |
Principal Investigator |
山口 明彦 東北大学, 情報科学研究科, 助教 (10625031)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | ロボットラーニング / 強化学習 / ロボットマニピュレーション / 触覚センシング / 触覚マニピュレーション |
Outline of Annual Research Achievements |
スキルの組み合わせ探索とパラメータの最適化からなる離散連続強化学習によって調理のような高度な物体操作をロボットにより自動化するため,(A)スキルライブラリの構築,(B)スキルライブラリを利用したロボット動作の計画・制御・学習手法の開発,(C)シミュレーションやロボットを用いたタスクでの検証,の3つの目的を主軸として研究開発を進めており,それぞれについて以下の進捗があった.(C-1)双腕ロボットシステムの構築,および高度な物体操作が可能なロボットハンドとして2指4自由度かつ全リンクに触覚センサFingerVisionが埋め込まれたハンドを開発した.(A-1)この触覚ハンドを利用したスキルとして,把持の判定化,プレーシングにおける接触検知などの触覚スキルを実装した.一方で,(B-1)確率的ニューラルネットワークによるダイナミクスの学習と行動計画の研究を進める中で,粘性の高い液体やパーティクルのような対象物の「注ぐ」タスクで使われるスキル(傾ける,振るなど)では,ダイナミクスの出力分布が正規分布から外れるような現象が確認され,これが確率的モデルで学習したダイナミクスに基づく行動計画でリスクの高い行動選択を引き起こす要因となることを明らかにした.この問題に対処するため,確率的モデルを拡張し,Risk sensitiveな強化学習手法を開発した.この手法を検証するため,シミュレーションおよび実機のロボットで,(A-2)注ぐタスクで使われるスキルとして傾けるスキル,振るスキルを実装し,(C-2)粘性の高い液体やパーティクルの注ぐタスクにおいて検証し,有効性を明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
粘性の高い液体やパーティクルのような対象物の「注ぐ」タスクで使われるスキルでは,ダイナミクスの出力分布が正規分布から外れるような現象が確認され,これが確率的モデルで学習したダイナミクスに基づく行動計画でリスクの高い行動選択を引き起こす要因となることが明らかになったが,これは当初想定していなかった現象であった.このため,計画よりも確率的ニューラルネットワークを導入したダイナミクスモデル学習や行動計画の研究に多くの時間を割り当てることとなった.他の研究アイテムについては概ね想定通りに進められたため,総合的に,概ね研究計画通りに進められている.
|
Strategy for Future Research Activity |
「注ぐ」スキルのバリエーションを増やすことによって「注ぐ」ことができる対象物を増加させ,「注ぐ」タスクに対するロボットの行動の汎用性を高めることを進めている.これに伴うシミュレーション環境の開発,ロボットによるモーションの実装,ダイナミクスの学習と推論システムの強化などに取り組む.さらに,一連の研究開発によって可能となる調理タスクの研究開発を通して,理論の検証と,新たな問題の発見に取り組む.
|
Causes of Carryover |
コロナ禍の影響により旅費が発生しなかったこと,ロボットハンド開発に割り当てる予算が,他の予算より支出可能であったことなどが要因で,次年度使用額が生じた.次年度では双腕ロボットを利用した実験が本格化するため,この予算は実験スペースや環境構築の強化に割り当てる.シミュレーション開発費としての使用も計画している.
|