有限個の確率空間、状態空間等の直積で定義される確率空間、状態空間で定義されるマルコフ決定過程を取り上げた。定常、離散時間、割引型、無限期間、一般の状態空間、政策をマルコフ政策に制限した場合について最適値関数の計算量についての研究を行った。マルコフ決定過程の一般理論より、ある仮定の下では、最適値関数はベルマン方程式を満たし、又、逐次近似法により構成されることはよく知られたことである。本研究では、推移確率、利得関数、割引率、精度の4項目の組をインスタンス、インスタンスのクラスを問題、現時刻の確率過程の状態、次の時刻の確率過程の状態、アクションの3項目の組を質問とする計算モデルを設定した。そして、逐次近似法と関連させ、精度を決めたとき、supノルムによって評価したとき最適値関数との誤差がその精度以下となる区分的に定数となる関数が存在する場合に、そのアルゴリズムは正しいと定義し、また、オラクルとそのアルゴリズムによって実行される演算数の和でアルゴリズムの計算量を定義した。そこで、推移確率と利得関数がリプシッツ条件を満たし消失状態を持たない場合、マルコフ決定過程でよく知られているmixing条件を満たす場合、推移確率と利得関数がリプシッツ条件とmixing条件を満たし、消失状態を持つ場合に分け、それぞれの条件下で、その問題に対する正しいすべてのアルゴリズムに対して質問の最小値のオーダー評価(上界と下界)を得た。 また、ファイナンスでのアメリカンオプションに対する最適権利行使問題が、確率制御問題での最適停止問題として扱われることはよく知られたことであるが、確率過程が離散時間の場合について、確率空間の行列表現を用いることによって最適停止問題を線形計画問題に帰着させて計算量の評価について考察した。
|