受動性を活用したロボットの強化学習とそのためのデータ駆動モデル構築

Research Project

Project/Area Number	22K04027
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 20020:Robotics and intelligent system-related
Research Institution	Tokyo University of Agriculture and Technology (2023) Nagoya University (2022)
Principal Investigator	有泉亮東京農工大学, 工学(系)研究科(研究院), 准教授 (30775143)
Co-Investigator(Kenkyū-buntansha)	種村昌也信州大学, 学術研究院工学系, 助教 (10846885)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords	受動性 / 強化学習 / 最適制御 / ロボット
Outline of Research at the Start	強化学習は様々な方面で成功を収めているが，ロボットのような多自由度でかつ連続な状態量と制御入力（行動）の空間を有するシステムに対しては，まだ十分な効率性を獲得できていない．本研究では移動ロボットを対象とし，生体システムを含む多くの力学系に共通の性質と考えられる受動性に着目した高効率な強化学習法の提案を目指す．物理的特性の先験知識を制御器に構造的に組み込むことにより，学習効率が向上するだけでなく，シミュレーションを基にして得られた学習結果をそのまま実際のシステムに適用しても適切な運動になるような学習則・制御則を得られると考えられる．
Outline of Annual Research Achievements	本研究では強化学習へのモデルの利用を前提に，完全なモデルが得られなくても，定性的・構造的な事前知識を利用することで学習効率を大幅に向上できるのではないか，という発想に基づいて学習の効率化を目指している．本期間においては特に，動的システムのモデル化手法として注目を集めているリザバーコンピューティング (RC) の応用に向けた基礎検討を行った．これは当初の予定では今年度の中心的課題とする予定ではなかった部分であるが，予備検討において当初計画時には想定されていなかった結果が得られたため計画を一部変更し集中して実施した． RCは学習モデルの訓練における計算コストを抑える手法であり，特に，動的システムを近似する枠組みとして注目されている．しかし，適切なモデル化を達成するための条件が不明であった．そこで，RCモデルがある種の動的システムを任意の精度で近似できる（普遍性を持つ，という）ための条件について理論的検討を実施した．この結果，普遍性の実現のための鍵と従来思われていた条件は，出力が有限個に制約される現実的なモデルにおいては普遍性実現を妨げる効果があることが分かった．さらに，新しく普遍性実現のための十分条件を提示し，その条件を満たす1出力のモデルが存在しうることを示した．証明した数学的条件の持つ物理的な意味は現時点では不明瞭でるが，RCの実用化に向けた大きな一歩であると考えている．他に，人間が機械を操縦する際の行動は最適化に基づいているという仮定のもと，人間にとって制御しやすいプラントパラメータをデータから推定する手法を提案した．受動性を有する制御システムはある条件の下では何らかの最適制御の結果と解釈できることが知られており，受動性のデータ駆動解析への活用の一つとして取り組んでいる．この手法は，今後ヒューマン・イン・ザ・ループシステムの強化学習において基盤となると考えられる．
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 本研究期間においては，当初の計画とは異なる内容が中心となったものの，当初想定していなかった結果が多く得られている．なお，2年目に実施予定であった内容の大部分は1年目に終了している．本期間では特にリザバーコンピューティング (RC) に関して，当初は受動性を持つシステムのモデル化手法の一つとして応用することのみを考えていたが，その利用可能性に関して疑念が生じた．そのため，応用可能性を理論的に明らかにする研究を実施した．結果として，従来，RCモデルにおいて本質的に重要な性質であると思われていた性質が，むしろ有効なRCモデル構築を妨げる効果を持つことが示された．また，従来知られていた条件とは異なる性質を提示し，その性質がRCモデルにとって重要である可能性が高いことを示した．当初計画で1年目の実施を予定していた受動性を活用した制御則の提案については継続的に研究を進めており，いくつか成果を得つつある．ただし，当初目標としていた性質を有する制御則には至っておらず，今後も研究を継続する必要がある．
Strategy for Future Research Activity	本期間においては，リザバーコンピューティング (RC) に関する理論的基盤の構築を中心的に実施した．この結果として得られている内容から，当初本研究において想定していたようなRCの活用は難しいことが分かってきた．しかし，RCに関して未解明な点も残っているため，その点の解明に向けた研究は継続して実施する．一方，本研究の目的に対するRCの活用が困難であることから，この点については諦め，当初の計画通りポートハミルトニアン (PH) モデルの強化学習への活用に重点を置いた研究を実施する．また，PHモデルの活用方法はいくつか考えられるが，適切な制御則の提案がPHモデルの価値を最大限に生かすための鍵となる．そこでPHモデルに基づく制御則の研究は継続する．しかし，本研究で目標とする性質全てを満たす制御器の構築に成功できるか否かは不透明である．そのため，より簡単に活用できるモデル予測制御などを活用した強化学習に関する考察を進める．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(7 results)

All 2024 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results, Open Access: 1 results) Presentation (4 results) (of which Int'l Joint Research: 3 results)

[Journal Article] Automatic Temperature Parameter Tuning for Reinforcement Learning Using Path Integral Policy Improvement2024
- Author(s)
  Nakano Hiroyasu、Ariizumi Ryo、Asai Toru、Azuma Shun-Ichi
- Journal Title
  
  IEEE Transactions on Neural Networks and Learning Systems
  
  Volume: - Issue: 12 Pages: 18200-18211
- DOI
  10.1109/tnnls.2023.3312857
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Nonessentiality of Reservoir’s Fading Memory for Universality of Reservoir Computing2024
- Author(s)
  Sugiura Shuhei、Ariizumi Ryo、Asai Toru、Azuma Shun-Ichi
- Journal Title
  
  IEEE Transactions on Neural Networks and Learning Systems
  
  Volume: - Issue: 11 Pages: 16801-16815
- DOI
  10.1109/tnnls.2023.3298013
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Journal Article] ポートハミルトン形式によるヘビ型ロボットの関節角経路追従制御に関するロバスト性解析2024
- Author(s)
  近藤暖浩，有泉亮，浅井徹，東俊一
- Journal Title
  
  システム制御情報学会誌
  
  Volume: 37 Pages: 35-44
- Related Report
  2023 Research-status Report
- Peer Reviewed
[Presentation] Human-In-The-Loop System における人間の価値観推定を用いた最適な線形システムの設計2024
- Author(s)
  寺岡佳孝，種村昌也，千田有一，有泉亮
- Organizer
  第11回計測自動制御学会制御部門マルチシンポジウム
- Related Report
  2023 Research-status Report
[Presentation] Multi-objective Reinforcement Learning with Path Integral Policy Improvement2023
- Author(s)
  R. Ariizumi, H. Sago, T. Asai, and S. Azuma
- Organizer
  SICE Annual Conference
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Data-driven Estimation of Algebraic Riccati Equation for Inverse Linear Quadratic Regulator Problem2023
- Author(s)
  S. Sugiura, R. Ariizumi, T. Asai, and S. Azuma
- Organizer
  SICE Annual Conference
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Model Estimation Ensuring Passivity by Using Port-Hamiltonian Model and Deep Learning2022
- Author(s)
  Hiroyasu Nakano, Ryo Ariizumi, Toru Asai, Shun-ichi Azuma
- Organizer
  SICE Annual Conference
- Related Report
  2022 Research-status Report
- Int'l Joint Research

受動性を活用したロボットの強化学習とそのためのデータ駆動モデル構築

Principal Investigator

有泉 亮 東京農工大学, 工学(系)研究科(研究院), 准教授 (30775143)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Automatic Temperature Parameter Tuning for Reinforcement Learning Using Path Integral Policy Improvement2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Nonessentiality of Reservoir’s Fading Memory for Universality of Reservoir Computing2024

Author(s)

Journal Title

DOI

Related Report

[Journal Article] ポートハミルトン形式によるヘビ型ロボットの関節角経路追従制御に関するロバスト性解析2024

Author(s)

Journal Title

Related Report

[Presentation] Human-In-The-Loop System における人間の価値観推定を用いた最適な線形システムの設計2024

Author(s)

Organizer

Related Report

[Presentation] Multi-objective Reinforcement Learning with Path Integral Policy Improvement2023

Author(s)

Organizer

Related Report

[Presentation] Data-driven Estimation of Algebraic Riccati Equation for Inverse Linear Quadratic Regulator Problem2023

Author(s)

Organizer

Related Report

[Presentation] Model Estimation Ensuring Passivity by Using Port-Hamiltonian Model and Deep Learning2022

Author(s)

Organizer

Related Report

有泉亮東京農工大学, 工学(系)研究科(研究院), 准教授 (30775143)