2023 Fiscal Year Research-status Report
受動性を活用したロボットの強化学習とそのためのデータ駆動モデル構築
Project/Area Number |
22K04027
|
Research Institution | Tokyo University of Agriculture and Technology |
Principal Investigator |
有泉 亮 東京農工大学, 工学(系)研究科(研究院), 准教授 (30775143)
|
Co-Investigator(Kenkyū-buntansha) |
種村 昌也 信州大学, 学術研究院工学系, 助教 (10846885)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 受動性 / 強化学習 / 最適制御 / ロボット |
Outline of Annual Research Achievements |
本研究では強化学習へのモデルの利用を前提に,完全なモデルが得られなくても,定性的・構造的な事前知識を利用することで学習効率を大幅に向上できるのではないか,という発想に基づいて学習の効率化を目指している.本期間においては特に,動的システムのモデル化手法として注目を集めているリザバーコンピューティング (RC) の応用に向けた基礎検討を行った.これは当初の予定では今年度の中心的課題とする予定ではなかった部分であるが,予備検討において当初計画時には想定されていなかった結果が得られたため計画を一部変更し集中して実施した. RCは学習モデルの訓練における計算コストを抑える手法であり,特に,動的システムを近似する枠組みとして注目されている.しかし,適切なモデル化を達成するための条件が不明であった.そこで,RCモデルがある種の動的システムを任意の精度で近似できる(普遍性を持つ,という)ための条件について理論的検討を実施した.この結果,普遍性の実現のための鍵と従来思われていた条件は,出力が有限個に制約される現実的なモデルにおいては普遍性実現を妨げる効果があることが分かった.さらに,新しく普遍性実現のための十分条件を提示し,その条件を満たす1出力のモデルが存在しうることを示した.証明した数学的条件の持つ物理的な意味は現時点では不明瞭でるが,RCの実用化に向けた大きな一歩であると考えている. 他に,人間が機械を操縦する際の行動は最適化に基づいているという仮定のもと,人間にとって制御しやすいプラントパラメータをデータから推定する手法を提案した.受動性を有する制御システムはある条件の下では何らかの最適制御の結果と解釈できることが知られており,受動性のデータ駆動解析への活用の一つとして取り組んでいる.この手法は,今後ヒューマン・イン・ザ・ループシステムの強化学習において基盤となると考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究期間においては,当初の計画とは異なる内容が中心となったものの,当初想定していなかった結果が多く得られている.なお,2年目に実施予定であった内容の大部分は1年目に終了している. 本期間では特にリザバーコンピューティング (RC) に関して,当初は受動性を持つシステムのモデル化手法の一つとして応用することのみを考えていたが,その利用可能性に関して疑念が生じた.そのため,応用可能性を理論的に明らかにする研究を実施した.結果として,従来,RCモデルにおいて本質的に重要な性質であると思われていた性質が,むしろ有効なRCモデル構築を妨げる効果を持つことが示された.また,従来知られていた条件とは異なる性質を提示し,その性質がRCモデルにとって重要である可能性が高いことを示した. 当初計画で1年目の実施を予定していた受動性を活用した制御則の提案については継続的に研究を進めており,いくつか成果を得つつある.ただし,当初目標としていた性質を有する制御則には至っておらず,今後も研究を継続する必要がある.
|
Strategy for Future Research Activity |
本期間においては,リザバーコンピューティング (RC) に関する理論的基盤の構築を中心的に実施した.この結果として得られている内容から,当初本研究において想定していたようなRCの活用は難しいことが分かってきた.しかし,RCに関して未解明な点も残っているため,その点の解明に向けた研究は継続して実施する. 一方,本研究の目的に対するRCの活用が困難であることから,この点については諦め,当初の計画通りポートハミルトニアン (PH) モデルの強化学習への活用に重点を置いた研究を実施する.また,PHモデルの活用方法はいくつか考えられるが,適切な制御則の提案がPHモデルの価値を最大限に生かすための鍵となる.そこでPHモデルに基づく制御則の研究は継続する.しかし,本研究で目標とする性質全てを満たす制御器の構築に成功できるか否かは不透明である.そのため,より簡単に活用できるモデル予測制御などを活用した強化学習に関する考察を進める.
|
Causes of Carryover |
残額が発生した理由として,当初出費を予定していた論文掲載料や旅費等の一部に関し,別予算からの支出が可能となったこと,また,購入を予定していた物品の一部について代替品を無償で譲渡していただくことができたことが挙げられる.残額は研究で使用するコンピュータ,またはその部品の購入に利用することを予定している.
|