研究概要 |
マルコフ決定過程(S,A,q,r)を,Sは可算状態空間,Aはコンパクト決定空間,q=(q_<ij>(a))(i,j∈S,a∈A)はa∈Aについて連続な推移確率,r(i,a,j)はa∈Aについて連続で一様有界な利得とする。X_t,Δ_tを時刻tの状態と決定を表す確率変数とする。X_k,Δ_k,0【less than or equal】k【less than or equal】t-1とX_tに関するA上の条件付き確率のtに関する列を政策とよびπと表す。また,非負整数値確率変数σを停止時刻とする。 B(t)=Σ^t_<k=1>r(X_<k-1>,Δ_<k-1>,X_k)とする。初期状態i_0に対して標本空間Ω=(S×A)^∞上の確率P^π_<i0>が定まる。この確率による期待値をE^π_<i0>で表す。初期資産をα_0としてE^π_<i0>[g(α^0+β(σ))]を最大化する(π,σ)を(i_0,α_0)最適なペアとよぶ。ここで効用関数gは(非減少,凹,上に有界),または(実数のコンパクト集合上で有界な導関数をもち任意のπ,iについてE^π_i[sup_<t【greater than or equal】0>g^+(α^0+β(t))]<∞とする。ただし,g^+はgの正値部分とする。)任意のi∈Sと実数αについて,ν(i,α)=max^<{(π,σ)}>E^π_i(g(α+B(t))とおく。このとき,最適なペアと最適方程式の間に次の関係がある。 (i)任意のi∈Sとαに対してυ(i,α)は最適方程式 ν(i,α)=max{g(α),max_<α∈A>Σ_<j∈S>q_<ij>(α)ν(j,α+γ(i,a,j))} (1)を満たす。さらに(π,σ)をP^π_<i_0>(σ【greater than or equal】1)=1とする。 (ii)(π,σ)が(i_0,α_0)最適なペアならばυ(i_0,α_0)=E^π_i(g(α+B(t))は(1)を満たす。 (iii)逆に,E^π_i(g(α+B(t))=υ(i_0,α_0)が(1)を満たせば,(π,σ)は(i_0,α_0)最適なペアとなる。
|