2023 Fiscal Year Research-status Report

Development of Learning Theory of SNN Control Policies Using Neurochip and Application to Edge Robots

Research Project

Project/Area Number	23KJ1585
Research Institution	Nara Institute of Science and Technology
Principal Investigator	角川勇貴奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
Project Period (FY)	2023-04-25 – 2025-03-31
Keywords	深層強化学習 / ニューロチップ / Sim-to-Real / 知能ロボティクス
Outline of Annual Research Achievements	本研究では，1）ニューロチップとSNNを活用した制御方策の学習理論開発と2）エッジロボットへの応用を実施した． 1) SNNは一般的なDNNと比較して関数近似精度が低いことで知られており，その影響から学習理論を用いて制御方策を学習しても間違った行動を学習してしまう．そこで本研究では，SNNの低い関数近似精度に頑健な学習理論を検討した．具体的には，SNNで表現された制御方策の最適行動とそれ以外の行動の評価値のギャップを増幅させる手法を提案した．検証実験では，制御方策学習のベースライン環境であるOpenAIGym環境と我々が開発したヴィジュアルサーボシミュレーション環境に提案手法を適用し，目標であったDNNの95％以上の学習性能達成を確認した． 2) 制御方策の学習理論を実世界のエッジロボット環境へ応用するためには，膨大な組み合わせを実機環境で再現して学習サンプルを収集することが課題である．そこで本研究では，シミュレーション内で実機環境を網羅機に再現して，学習サンプルを収集する学習フレームワークを活用した．このとき，実機環境とシミュレーション環境において再現度に違いがあるため，再現度の誤差を減少させるドメイン最適化を提案する．特に，膨大な環境の組み合わせを単一のNNで方策近似すると学習不安定化が発生してしまう．そこで，環境グループを小分けしてそれぞれで別々の制御方策を学習する学習手法を開発した．その結果を論文としてまとめ，国際学術雑誌であるRobotics and Autonomous Systemsに出版した．また，エッジロボット環境における検証として，四足歩行ロボットがフィールドを巡回するタスクを設計した．その検証を行うために，四足歩行ロボットの研究を行っているETH Zurichにて共同研究を行った．この成果は2024年度に国際雑誌に投稿予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 翌年度，交付申請を辞退するため，記入しない．
Strategy for Future Research Activity	翌年度，交付申請を辞退するため，記入しない．

Research Products
(1 results)

All Journal Article (1 results) (of which Peer Reviewed: 1 results)

[Journal Article] Cyclic policy distillation: Sample-efficient sim-to-real reinforcement learning with domain randomization2023
- Author(s)
  Kadokawa Yuki、Zhu Lingwei、Tsurumine Yoshihisa、Matsubara Takamitsu
- Journal Title
  
  Robotics and Autonomous Systems
  
  Volume: 165 Pages: 104425～104437
- DOI
  10.1016/j.robot.2023.104425
- Peer Reviewed