Project/Area Number |
22K04027
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 20020:Robotics and intelligent system-related
|
Research Institution | Tokyo University of Agriculture and Technology (2023) Nagoya University (2022) |
Principal Investigator |
有泉 亮 東京農工大学, 工学(系)研究科(研究院), 准教授 (30775143)
|
Co-Investigator(Kenkyū-buntansha) |
種村 昌也 信州大学, 学術研究院工学系, 助教 (10846885)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 受動性 / 強化学習 / 最適制御 / ロボット |
Outline of Research at the Start |
強化学習は様々な方面で成功を収めているが,ロボットのような多自由度でかつ連続な状態量と制御入力(行動)の空間を有するシステムに対しては,まだ十分な効率性を獲得できていない.本研究では移動ロボットを対象とし,生体システムを含む多くの力学系に共通の性質と考えられる受動性に着目した高効率な強化学習法の提案を目指す.物理的特性の先験知識を制御器に構造的に組み込むことにより,学習効率が向上するだけでなく,シミュレーションを基にして得られた学習結果をそのまま実際のシステムに適用しても適切な運動になるような学習則・制御則を得られると考えられる.
|
Outline of Annual Research Achievements |
本研究では強化学習へのモデルの利用を前提に,完全なモデルが得られなくても,定性的・構造的な事前知識を利用することで学習効率を大幅に向上できるのではないか,という発想に基づいて学習の効率化を目指している.本期間においては特に,動的システムのモデル化手法として注目を集めているリザバーコンピューティング (RC) の応用に向けた基礎検討を行った.これは当初の予定では今年度の中心的課題とする予定ではなかった部分であるが,予備検討において当初計画時には想定されていなかった結果が得られたため計画を一部変更し集中して実施した. RCは学習モデルの訓練における計算コストを抑える手法であり,特に,動的システムを近似する枠組みとして注目されている.しかし,適切なモデル化を達成するための条件が不明であった.そこで,RCモデルがある種の動的システムを任意の精度で近似できる(普遍性を持つ,という)ための条件について理論的検討を実施した.この結果,普遍性の実現のための鍵と従来思われていた条件は,出力が有限個に制約される現実的なモデルにおいては普遍性実現を妨げる効果があることが分かった.さらに,新しく普遍性実現のための十分条件を提示し,その条件を満たす1出力のモデルが存在しうることを示した.証明した数学的条件の持つ物理的な意味は現時点では不明瞭でるが,RCの実用化に向けた大きな一歩であると考えている. 他に,人間が機械を操縦する際の行動は最適化に基づいているという仮定のもと,人間にとって制御しやすいプラントパラメータをデータから推定する手法を提案した.受動性を有する制御システムはある条件の下では何らかの最適制御の結果と解釈できることが知られており,受動性のデータ駆動解析への活用の一つとして取り組んでいる.この手法は,今後ヒューマン・イン・ザ・ループシステムの強化学習において基盤となると考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究期間においては,当初の計画とは異なる内容が中心となったものの,当初想定していなかった結果が多く得られている.なお,2年目に実施予定であった内容の大部分は1年目に終了している. 本期間では特にリザバーコンピューティング (RC) に関して,当初は受動性を持つシステムのモデル化手法の一つとして応用することのみを考えていたが,その利用可能性に関して疑念が生じた.そのため,応用可能性を理論的に明らかにする研究を実施した.結果として,従来,RCモデルにおいて本質的に重要な性質であると思われていた性質が,むしろ有効なRCモデル構築を妨げる効果を持つことが示された.また,従来知られていた条件とは異なる性質を提示し,その性質がRCモデルにとって重要である可能性が高いことを示した. 当初計画で1年目の実施を予定していた受動性を活用した制御則の提案については継続的に研究を進めており,いくつか成果を得つつある.ただし,当初目標としていた性質を有する制御則には至っておらず,今後も研究を継続する必要がある.
|
Strategy for Future Research Activity |
本期間においては,リザバーコンピューティング (RC) に関する理論的基盤の構築を中心的に実施した.この結果として得られている内容から,当初本研究において想定していたようなRCの活用は難しいことが分かってきた.しかし,RCに関して未解明な点も残っているため,その点の解明に向けた研究は継続して実施する. 一方,本研究の目的に対するRCの活用が困難であることから,この点については諦め,当初の計画通りポートハミルトニアン (PH) モデルの強化学習への活用に重点を置いた研究を実施する.また,PHモデルの活用方法はいくつか考えられるが,適切な制御則の提案がPHモデルの価値を最大限に生かすための鍵となる.そこでPHモデルに基づく制御則の研究は継続する.しかし,本研究で目標とする性質全てを満たす制御器の構築に成功できるか否かは不透明である.そのため,より簡単に活用できるモデル予測制御などを活用した強化学習に関する考察を進める.
|