研究概要 |
本研究ではまず,従来の確定ハミルトン系を確率ハミルトン系として拡張し,確率受動性や,対称性などのこのシステムが有する性質を明らかにした.この対称性は,確率ハミルトン系の変分系とその随伴系の状態空間表現が,互いの時間反転となる性質である.確率システムの随伴系は後退確率微分方程式となり,計算が困難であるが,この対称性を利用することで対応する前進確率微分方程式の計算に帰着できる.つぎに,この性質を利用して確率力学系の性質に基づく新しい学習最適制御法を与えた.本手法は,評価関数の期待値の勾配方向に入力を逐次的に更新することで,評価関数の期待値を(局所的に)最小化する最適なフィードフォワード入力と対応する最適軌道を生成するものである.一般的には,この勾配を計算する際に現れる随伴系の計算のために制御対象の情報が必要となるが,本手法では前述の対称性を利用することでこの問題を回避することができる.
|