研究課題/領域番号 |
22H03662
|
配分区分 | 補助金 |
研究機関 | 大阪大学 |
研究代表者 |
野村 泰伸 大阪大学, 大学院基礎工学研究科, 教授 (50283734)
|
研究分担者 |
鈴木 康之 大阪大学, 大学院基礎工学研究科, 講師 (30631874)
MILOSEVIC MATIJA 大阪大学, 大学院基礎工学研究科, 助教 (50840188)
佐古田 三郎 独立行政法人国立病院機構大阪刀根山医療センター(臨床研究部), 独立行政法人国立病院機構大阪刀根山医療センター, 名誉院長 (00178625)
遠藤 卓行 独立行政法人国立病院機構大阪刀根山医療センター(臨床研究部), 独立行政法人国立病院機構大阪刀根山医療センター, 研究員(移行) (40573225)
藤本 千里 東京大学, 医学部附属病院, 講師 (60581882)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 強化学習 / 誤差学習 / 姿勢制御 / むだ時間制御系 / 間欠制御 / ハイブリッド制御 |
研究実績の概要 |
ヒト脳におけるモデルフリーおよびモデルベースの意思決定・行動選択メカニズムの解明は、革新的ソフトコンピューティング技術開発に資する重要課題である。強化学習・報酬予測の座である大脳基底核と、教師あり学習により内部モデルを適応的に獲得する小脳の機能分担・機能連携のモデルは、そうした脳内メカニズムの有力仮説である。しかし具体的な脳機能を対象としてその実体がシステム工学的に解明された事例は少ない。本研究では、ヒト静止立位姿勢の安定化制御に焦点を絞り、基底核と小脳の機能を統合したヒト立位姿勢の適応的ハイブリッド制御モデルを構築し、姿勢安定化戦略の立位環境適応的な変化、および神経疾患(基底核・前庭・小脳疾患)に起因する姿勢不安定化メカニズムの解明を目指す。 1年目の2022年度は、立位環境適応的な姿勢制御戦略の解明の基盤モデルの構築、および前庭症状を呈する患者の静止立位姿勢動揺の解析を実施した。特に前者に関しては、我々が提唱するヒト静止立位姿勢の間欠制御モデルに着目し、間欠制御戦略が強化学習を通じて獲得されるような即時報酬関数やノイズを含む学習環境の解明を目指した。報酬関数の探索は、様々な報酬関数を用意し、それぞれの報酬関数に基づく強化学習を実施し、間欠制御が獲得されるか否かを調査する順強化学習アプローチと、若年健常者の静止立位姿勢動揺データをエキスパートの行動データとみなし、逆強化学習アルゴリズムを用いて未知の報酬関数を推定するアプローチで進めた。その結果、直立位置からの姿勢のずれ(誤差)の最小化と姿勢制御に要するエネルギー消費パワーのトレードオフを内在するような比較的単純な瞬時コスト(負の報酬)関数の下で、フィードバック時間遅れと適切な累積割引率を仮定した強化学習が行われると、間欠制御戦略が獲得されることが明らかになった。この成果は、現在国際英文誌に投稿準備中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
強化学習・報酬予測の座である大脳基底核と、教師あり学習により内部モデルを適応的に獲得する小脳の機能分担・機能連携による立位姿勢制御モデルの構築の内、強化学習に関するモデル研究を予想以上に順調に進めることができた。また、小脳機能に関わる前庭疾患患者の姿勢動揺データの基礎的な解析を実施し、今後の研究に必要な基盤的知見を得ることもできた。一方で、立位環境を変化させたときに、制御戦略を新規環境に適応させる様子を捉える計測実験は、当初の計画通りの実験環境を構築することができなかったため、計画通りに研究を進捗することはできなかった。現在、当初の予定とは異なる方法で、同等の実験が可能な枠組みを考案中で、次年度には実験環境構築を成功させる予定である。
|
今後の研究の推進方策 |
モデル構築に関しては、内部モデルを用いたモデルベース予測制御(MPC)をベースとした強化学習によって姿勢の間欠制御モデルが構築できる可能性をすでに示しつつあり、引き続きこの方向で適応的ハイブリッド制御モデルの構築を進める計画である。また、これまで用いてきた制御対象は単純な単一倒立振子であったが、2023年度では、制御対象として二重倒立振子を用いたモデル構築にも取り組む予定である。 床面を傾斜させた新規環境における適応的立位制御戦略の獲得に関しては、上述したように、当初計画よりは簡便な方法を用いた実験系を構築し、それを用いることで、環境適応前後(アフターエフェクトも含む)における姿勢動揺計測を実施し、姿勢ゆらぎの特性が、適応・順応によってどのように変容するかを明らかにする予定である。
|