2017 Fiscal Year Annual Research Report
Modeling postural and gait dynamics using intermittent control and reinforcement learning
Publicly Offered Research
Project Area | Non-linear Neuro-oscillology: Towards Integrative Understanding of Human Nature |
Project/Area Number |
16H01614
|
Research Institution | Osaka University |
Principal Investigator |
野村 泰伸 大阪大学, 基礎工学研究科, 教授 (50283734)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 運動制御 / 間欠制御 / 直立姿勢 / 強化学習 / 生体シミュレーション |
Outline of Annual Research Achievements |
我々はヒト直立姿勢・二足歩行に関して、身体関節の柔軟性を確保しつつ姿勢や運動を安定化する神経制御メカニズムとして、従来仮説である持続的スティッフネス制御とは異なる間欠制御仮説を提唱している。本研究はヒト直立姿勢の間欠制御の妥当性を示すことを目指した。本年度は、前年度に引き続き、倒立単振子モデルの姿勢を安定化するむだ時間を伴うフィードバック制御器の強化学習による獲得を対象とし、獲得される制御戦略および、安定化された立位姿勢のゆらぎ特性が、報酬関数および系のプロセスノイズ等にどのように依存するかを解析した。強化学習には一般的なQ学習を用いたが、むだ時間があるため、学習された制御器の出力の大きさが適当な条件を満たさない場合には立位姿勢の不安定化(時間遅れ誘引性不安定化)が発生し、系の動態(遷移確率行列)が急激に変化し得るため、一般的な線形システムの最適制御とは全く異なる制御器の獲得が生じることが明らかになった。報酬関数としては、(i)フィードバックトルクによる力学的エネルギーの消費、および(ii)振子の直立姿勢からの乖離というトレードオフの関係にある2つの事象に対して負の報酬を設定し、これらの重みを付き和を報酬関数とした。大きなフィードバックトルクは、エネルギー消費の増加と上述の不安定化を招くこと、フィードバックトルクが零の場合は、エネルギー消費が零であるにも関わらず状態空間内の特定の場所(安定多様体の近傍)では振子の状態は直立姿勢に接近する性質があることに起因して、振子の状態に非線形に依存して、フィードバックトルクを大きくしたり小さくしたり(零にする)ような、間欠制御器が獲得されることが明らかになった。さらに、学習の収束過程を力学系として見た場合、系には複数のアトラクタが存在し、学習の初期状態あるいはプロセスノイズの強度に依存して、異なる制御器が獲得されることが明らかになった。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(6 results)