Development of Learning Theory of SNN Control Policies Using Neurochip and Application to Edge Robots

Research Project

Project/Area Number	23KJ1585
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund
Section	国内
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Nara Institute of Science and Technology
Principal Investigator	角川勇貴奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
Project Period (FY)	2023-04-25 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥1,800,000 (Direct Cost: ¥1,800,000) Fiscal Year 2024: ¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2023: ¥900,000 (Direct Cost: ¥900,000)
Keywords	深層強化学習 / ニューロチップ / Sim-to-Real / 知能ロボティクス
Outline of Research at the Start	近年，自律的にタスクを行うエッジロボットが人間の代替労働力として普及することが望まれ，その中でも省電力性からニューロチップとその計算方式に適したスパイキングニューラルネットワーク（SNN）による制御が期待されている．しかし，現状ではエッジロボットに適したSNNによる制御方策の学習フレームワークは存在せず，従来の学習手法はSNNの関数近似方法と異なるため間違った行動を学習してしまう．本研究では，SNNの関数近似特性に適した制御方策の学習手法の開発と，エッジロボット制御への応用を目的とする．これによって，エッジロボットにおいて高い汎化性を獲得可能な画像を入力とする制御方策実装の実現を目指す．
Outline of Annual Research Achievements	本研究では，1）ニューロチップとSNNを活用した制御方策の学習理論開発と2）エッジロボットへの応用を実施した． 1) SNNは一般的なDNNと比較して関数近似精度が低いことで知られており，その影響から学習理論を用いて制御方策を学習しても間違った行動を学習してしまう．そこで本研究では，SNNの低い関数近似精度に頑健な学習理論を検討した．具体的には，SNNで表現された制御方策の最適行動とそれ以外の行動の評価値のギャップを増幅させる手法を提案した．検証実験では，制御方策学習のベースライン環境であるOpenAIGym環境と我々が開発したヴィジュアルサーボシミュレーション環境に提案手法を適用し，目標であったDNNの95％以上の学習性能達成を確認した． 2) 制御方策の学習理論を実世界のエッジロボット環境へ応用するためには，膨大な組み合わせを実機環境で再現して学習サンプルを収集することが課題である．そこで本研究では，シミュレーション内で実機環境を網羅機に再現して，学習サンプルを収集する学習フレームワークを活用した．このとき，実機環境とシミュレーション環境において再現度に違いがあるため，再現度の誤差を減少させるドメイン最適化を提案する．特に，膨大な環境の組み合わせを単一のNNで方策近似すると学習不安定化が発生してしまう．そこで，環境グループを小分けしてそれぞれで別々の制御方策を学習する学習手法を開発した．その結果を論文としてまとめ，国際学術雑誌であるRobotics and Autonomous Systemsに出版した．また，エッジロボット環境における検証として，四足歩行ロボットがフィールドを巡回するタスクを設計した．その検証を行うために，四足歩行ロボットの研究を行っているETH Zurichにて共同研究を行った．この成果は2024年度に国際雑誌に投稿予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 翌年度，交付申請を辞退するため，記入しない．
Strategy for Future Research Activity	翌年度，交付申請を辞退するため，記入しない．