昨年度までの成果により,データから対象システムを「知れる」ためのデータ量と対象システムを制御するためのデータ量が,データが十分に存在するとき,ある意味で等価であることが明らかとなった.では,データが十分でない場合に,対象システムを制御するためにはどのようにすればよいだろうか. この視点に立ち,本年度は,逐次的に動的出力フィードバック制御器を学習する方策勾配法とその解析を与えた.本手法も,昨年度の研究で導入したVARXモデルに基づくものである.これにより,動的出力フィードバック制御器設計が入出力データの有限長の履歴を擬似的な状態とみなした状態フィードバック制御器設計へと等価に変換できることを示している.つぎにこの等価性に基づき,モデルベースな方策勾配法を提案し,大域的最適解に線形収束することを示した.これは,最適制御問題に近しい評価関数の最小化問題として定式化されており,その問題が非凸でありつつもPolyak-Lojasiewicz不等式を満たすため,単純な勾配アルゴリズムによって1次の速度で大域的最適解に収束することが保証されている.さらに,勾配のモンテカルロ近似に基づくモデルフリー型の方策勾配を提案し,そのサンプル複雑性解析も与えている.同様の解析は状態フィードバック制御器設計の場合において行われておりその解析と大差はないものの,同様の解析結果が出力フィードバック制御器設計の場合へも自然に拡張できることを示している点で重要であると考えられる.提案法の有効性は数値シミュレーションによって検証している.
|