2021 Fiscal Year Annual Research Report
統計的機械学習の手法を用いたデータ駆動型非線形準最適制御
Project/Area Number |
19K20375
|
Research Institution | Nagoya University |
Principal Investigator |
有泉 亮 名古屋大学, 工学研究科, 助教 (30775143)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 強化学習 / ロボット / 制御工学 |
Outline of Annual Research Achievements |
生物模倣ロボットなどの多自由度ロボットへの適用を想定し,データ効率の高い強化学習の提案を行った.研究計画の時点では応答曲面法と呼ばれる手法に着目していたが,この方針では十分な効率化は達成困難であると判断された.そこで,本研究ではPI2と呼ばれる強化学習手法に着目した.この方法は比較的高次元のシステムでも効率よく学習できることが知られている.しかし,これにはいくつか使用者が設定するパラメータがあり,そのパラメータの設定によりデータ効率が大きく左右されるという問題があった.本研究ではこれらのパラメータに対し自動調整のための手法を提案した.これにより,例えば従来法では達成困難であった多脚ロボットの起き上がり動作を比較的少ない実験回数で獲得することに成功している.これらの結果の一部についてはIEEEの論文誌にて発表済みであり,また,残りの部分についてもIEEEの論文誌での発表を目指し,査読への対応を行っているところである. 上記の方法はデータの使い方に関わるものであるが,しかし,データの使い方の工夫だけでは効率化に限界があることも見えてきている.そこで本研究では,明らかに成立する物理的特性を学習に利用することも検討した.対象の正確な物理モデルが得られている場合,そのモデルの知識を利用することで強化学習が高速化できることはよく知られている.しかし,モデル化誤差が存在する場合には,現実には不適切な結果を学習してしまうこともあり,モデルの利用を難しくしている.そこで,運動方程式のような具体的な知見ではなく,より抽象的な知見として,受動性に着目することを考えた.このために,制御理論でよく利用されているポート・ハミルトン系に着目している.この内容についてはまだ基礎的考察にとどまっているものの,研究結果の一部は国際学会誌AROB Journalに掲載されている.
|