Research Abstract |
研究実施計画の役割分担に従って,下記の研究成果を得た. (1) 研究代表者は,目標集合を伴うセミマルコフ決定過程におけるリスク最小化問題を導入し,再帰クラスを伴う決定過程として定式化した.目標集合が吸収的であるとき,最適値関数が非線形な最適方程式の一意解であることを示した.また,最適値関数を値反復法で求めるとともに,最適定常政策の存在を与え,最適政策を求めるために政策改良法を導入した.この成果は大学院生阪口昌彦との共同研究である.この成果は論文としてまとめ,発表した. (2) 研究代表者は,閾値確率を評価関数にもつ零和停止ゲームにおいて,ゲームの値関数が最適再帰方程式をみたすことを示し,鞍部点の特徴付けを行い,独立な確率変数列のモデルに応用し,ゲームの値関数と鞍部点を陽に求めた.この成果は論文としてまとめ,発表した.(現在掲載確定である) (3) 研究分担者安田正實は,黄金最適性の観点から動的最適過程を導入した.パスが黄金とは,各推移で同じ黄金セクションを繰り返し次の状態に動くときをいい,政策が黄金とは適切な動作とともに黄金パスを導くときをいう.そのとき,問題はパスや政策が黄金かどうかである.この成果では無限期間での2次評価を最小にすることと平方根の最大化を考え,ともに黄金パスが最適であることを示した.この成果は論文としてまとめ,発表した. (4) 研究分担者安田正實は,推移確率行列が未知のマルコフ決定過程の解析を,事前測度区間による区間ベイズ方の考え方を適応して研究した.そのために,未知の推移確率行列をある区間で推定した場合のモデルとして,区間推定マルコフ決定過程を定式化し,区間ベイズ手法により解析した.
|