第一段階では、計算機実験を通して、既に提案したLQレギュレータ問題に関する動的逆最適化の解法の有効性を実システムである倒立振子系の数値モデルを用いて検証した。これにより、4次元の制御対象の場合、学習により観測時系列から対応する評価関数を正しく推定できることを確認した。この際、同時に推定するリカッチ方程式の解である行列の初期値は真の行列にほど遠くなると、学習により正しい推定結果が得られないとの問題点があった。これに対して、試行錯誤的な探索手法により、推定精度の改善を図ることが考えられる。 第二段階では、理論的に追従問題の動的逆最適化に関する最適性条件を明らかにし、これのニューラルネットワーク構造での表現法を確立した。 第三段階では、計算機実験において2次元の制御対象を用い、ある目標時系列と観測時系列が与えられた場合、この観測時系列に対応する評価関数をニューラルネットワークの学習により推定した。ニューラルネットワークの構造には時系列伝達のフォーワード部分が存在するため、第一段階での状況に比べニューラルネットワークの学習がやや困難となる。この問題を克服するため、評価関数の推定は部分的、段階的に分けることにより行われた。 第四段階では、実世界への適用のため、ノイズに汚された実観測時系列(2次元の制御系)が与えられた場合、対応する評価関数のパラメータを既に提案した緩和的な学習法により推定する。これにより、評価関数の構造を決定することができると検討した。
|