深層強化学習における運動シナジー発現のメカニズムの解明
Publicly Offered Research
Project Area | Hyper-adaptability for overcoming body-brain dysfunction: Integrated empirical and system theoretical approaches |
Project/Area Number |
20H05458
|
Research Category |
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
|
Allocation Type | Single-year Grants |
Review Section |
Complex systems
|
Research Institution | Tohoku University |
Principal Investigator |
林部 充宏 東北大学, 工学研究科, 教授 (40338934)
|
Project Period (FY) |
2020-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Fiscal Year 2021: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2020: ¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
|
Keywords | 運動適応 / 運動シナジー / 深層学習 / 超適応の科学 / 強化学習 / 運動学習 |
Outline of Research at the Start |
運動シナジーが人間の運動制御で用いられていることは既知であるが、計算論的に中枢神経がどのような法則に基づいて、どのようなメカニズムでそれが生成されているかは計算論的数理モデル構築には至っていない。計算論的神経科学では、何らかの評価関数を最小にする(最適化)するような計算方法が提案されている。最適化計算には環境と身体の数学的モデルが事前に必要となってしまう。これまではどのような計算指針でシナジーが生成できるのかのメカニズムを扱うものはほとんどなかった。その数理メカニズムの非線形ダイナミクスシステムとしての理解を深め、深層学習と統合し多様な機械力学的運動へ適応した際の拡張性、有効性を検証する。
|
Outline of Annual Research Achievements |
冗長性を克服して、人間の運動の神経制御を再現する制御戦略を解明することは、人間の運動制御分野において中心的な課題である。これまで数理最適化に基づくアプローチが用いられてきた。しかし数学的最適化は、マニピュレータと環境の事前情報が与えられている場合のみ最適解を提供できる。 物理的に複雑で高次元の問題を扱うため、強化学習に深層学習技術を適用する深層強化学習(DRL)は、モデルフリーなアプローチとして有望である。しかし、現在のアルゴリズムは運動協調的な動作を考慮していないため、不自然でぎこちない制御結果になりがちである。 本研究ではリーチング運動追従タスクにおいて2種類のDRL制御を検証した。腕のモデルにDRLを適用した場合、行動コマンドはエージェントに与えるべき開ループ入力として学習される。これはDRLのフレームワークの標準的な手法である。さらに、フィードバック制御ループを持ちながらDRLを適用する、PD制御とDRL制御を組み合わせたものを「PDRL」と名付けた。 DRLとPDRLの両方で、単位エネルギーあたりの誤差指数の性能が最適化されていることを確認した。PDRLの指数はどのケースでもDRLのみの指数より概ね大きくなることが分かった。フィードバック信号により学習速度も3割向上するという結果が得られた。報酬関数に関節間のシナジーを明示的に記述しなかったが、学習過程でシナジー現象が自然に出現することを確認した。この結果は、シナジーの背後に誤差エネルギー最適化の問題が存在することを示唆している。さらに提案したフィードバック増幅型DRL制御の結果は,シナジーの発達と誤差エネルギー指数の点でDRLよりも優れた能力を示している。フィードバック制御が不必要なランダム探索を回避することでフィードフォワード項の発展を支援し、探索効率の向上につながることを示唆している。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(18 results)