受動性を活用したロボットの強化学習とそのためのデータ駆動モデル構築
Project/Area Number |
22K04027
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 20020:Robotics and intelligent system-related
|
Research Institution | Nagoya University |
Principal Investigator |
有泉 亮 名古屋大学, 工学研究科, 助教 (30775143)
|
Co-Investigator(Kenkyū-buntansha) |
種村 昌也 信州大学, 学術研究院工学系, 助教 (10846885)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 受動性 / 強化学習 / 最適制御 / ロボット |
Outline of Research at the Start |
強化学習は様々な方面で成功を収めているが,ロボットのような多自由度でかつ連続な状態量と制御入力(行動)の空間を有するシステムに対しては,まだ十分な効率性を獲得できていない.本研究では移動ロボットを対象とし,生体システムを含む多くの力学系に共通の性質と考えられる受動性に着目した高効率な強化学習法の提案を目指す.物理的特性の先験知識を制御器に構造的に組み込むことにより,学習効率が向上するだけでなく,シミュレーションを基にして得られた学習結果をそのまま実際のシステムに適用しても適切な運動になるような学習則・制御則を得られると考えられる.
|
Outline of Annual Research Achievements |
強化学習において,対象とするシステムに関する完全なモデルが存在する場合,その知識を利用して強化学習を大幅に効率化することが可能である.しかし,ロボットなどの対象を考える場合,完全なモデルを得られることはほとんどない.また,中途半端な知識を利用しようとすると,かえって学習効率の低下を招いてしまう.本研究では,完全なモデルが得られなくても,定性的・構造的な事前知識を利用することで学習効率を大幅に向上できるのではないか,という発想に基づいて学習の効率化を目指している.本期間においては,その第一歩として,多くの機械システムが共通して持つ特徴である受動性に着目し,受動性を保証するモデルの構造を用いたシステムの推定に関する研究を行った. 受動性を構造的に保証可能なモデルとして,ポート・ハミルトンモデルが知られている.このモデルはハミルトンの運動方程式を拡張したものであり,力学系のみならず,熱流体システムや電気システムなど幅広い物理システムをこの形式のモデルで表現できる.本期間ではこのモデルの形を仮定したうえで,深層学習の手法を用いることで,受動性を満たすと期待されるシステムの推定を効率的に実施する方法を提案した. 手法の有効性はロボットマニピュレータの手先位置制御に関する数値シミュレーションにより検証している.提案法による推定では,10回以下のシミュレーション結果から,制御での使用に耐えるモデルの獲得に成功した.一方,モデルの形式を指定しない方法では,同程度のパラメータ数のモデルで同程度の性能を発揮するためには数百回分のシミュレーションデータが必要であることを確認した.これらの結果は,近年注目を集めているphysics-informed neural networksの制御工学への応用に関する最初の成果の一つであると言えると考えている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画では,本研究期間(1年目)においてはポート・ハミルトン形式に基づくフィードバック制御則を提案することを予定していた.しかし,2年目に予定していた内容に関するアイデアが浮かんだためそちらを優先して実施した.結果として,2年目に予定していた内容の多くを完了することができた. 一方で,本来1年目に予定していた制御則の提案に関しては,従来代表者が実施していた関連研究を発展させ,新たな手法を提案している.また,その手法のロバスト性解析を実施している.しかし,提案した制御則は当初期待していた性質の一部を満たしていないことが明らかになってきており,そのままでは本研究の目的にはそぐわない可能性が高いと現時点では考えている.このため,より適切な制御則の提案に向けて考察を始めている.
|
Strategy for Future Research Activity |
本研究で目標とする効率的なロボットの動作獲得のための強化学習則の提案のために,ポート・ハミルトン形式に基づく制御則とポート・ハミルトン形式の学習の二つが要素技術となると考えている.前者はポート・ハミルトン形式のモデルをパラメータとするパラメータ化された制御方策を与え,後者が制御方策を学習する手段を与える,と予想している.本期間では主に後者について考察を行ったことになる.今後,前者の制御則についての考察と両者の融合についての考察を進めていく. 制御則に関しては,従来から行っていたポート・ハミルトン形式に基づく制御則の研究を発展させることで適切な方法が得られるのではないかと期待していたが,現状では望ましい性質を満たす制御則を得るには至っていない.その要因として,現在考えている手法では座標の設定の仕方に問題があると考えている.考察の対象として移動ロボットを考える場合,制御入力の個数に対し運動量ベクトルの次元がより大きくなる.現在では,直接駆動される変数とそうでない変数への分割の容易さを優先して座標設定を行っている.しかし,この設定が受動性において重要となるエネルギーの次元での考察を一部困難にしてしまっていると考えられる.そこで,今後はよりエネルギーに強く着目した手法を考察する.
|
Report
(1 results)
Research Products
(1 results)