確率制御問題において評価基準は重要な要素の1つである.本研究では,評価基準として分数型評価基準を導入して,マルコフ決定過程,1次元連続時間時間変数をもつ確率過程に対する最適停止問題,1次元離散・連続時間時間変数をもつ確率過程に対する多変量最適停止問題,多次元離散時間時間変数をもつ確率過程に対する最適停止問題を研究した.それぞれの問題に対する最適政策,最適停止規則を考察し,それらを求めるためのアルゴリズムとしてDinkebachアルゴリズムの有効性を検討した. これらの問題に対してパラメトリック法を用いて,分数型評価基準を通常の評価基準に変換し,パラメータに関する最適値関数の凸性,Lipschitz連続性,狭義単調性,パラメータを限りなく大きく(小さく)した時に発散することを示し,また,これらの結果を用いて最適値関数の値が0になるパラメータの値の存在を示した.さらに,この最適値関数の値が0になるパラメータの値が分数型評価基準の問題の最適値に一致すること,また,この最適値関数の値が0になる時の最適政策,最適停止規則が分数型評価基準の問題の最適政策,最適停止規則になることを証明した.特に,マルコフ決定過程の場合に,最適値関数の値が0になるパラメータの値が初期状態に関して連続になることを証明した. 分数型評価基準の問題の最適政策,最適停止規則を求めるためのアルゴリズムとしてDinkebachアルゴリズムを考え,最適値に収束する列および最適政策,最適停止規則の生成法を提案しその収束性を証明した. また,多次元離散時間時間変数をもつ確率過程に対する最適停止問題に対する預言者の不等式について考察した.確率過程の最大値の期待値と最適値の比の評価と差の評価について検討し,比の評価については最適な普遍定数を具体的に導き,差の評価については最適な普遍定数を導くための最適化問題を導出した.
|