研究概要 |
マルコフ決定過程(S,A,q,r)を,Sは可算状態空間,Aはコンパクト決定空間,q=(qij(a))(i,j∈S,a∈A)はa∈Aについて連続な推移確率,r(i,a,j)はα∈Aについて連続で一様有界な利得とする。X_t,Δ_tを時刻tの状態と決定を表す確率変数とする。X_k,Δ_k,0【less than or equal】k【less than or equal】t-1とX_tに関するA上の条件付き確率のtに関する列を政策とよびπと表す。また,非負整数値確率変数σを停止時刻とする。 B(t)=Σ^t_k=_1r(X_<k-1>,Δ_<k-1>,X_k)とする。初期状態i_0に対して標本空間Ω=(S×A)^∞上の確率P^π_<i_0>が定まる。この確率による期待値をE^π_<i_0>で表す。初期資産をα_0としてE^π_<i_0>[g(α_0+B(σ))]を最大化する(π,σ)を(i_0,α_0)最適なペアとよぶ。ここで効用関数gは(非減少,凹,上に有界),または(実数のコンパクト集合上で有界な導関数をもち任意のπ,iについてE^π_i[sup_<t【greater than or equal】0>g^+(α_0+B(t))]<∞とする。ただし,g^+はgの正値部分とする。)任意のi∈Sと実数αについて,υ(i,α)=max_<{(π,σ)}>E^π_i(g(α+B(σ))とおく。このとき,最適なペアと最適方程式の間に次の関係がある。 (i)任意のi∈Sとαに対してυ(i,α)は最適方程式 υ(i,α)=max{g(α),max_<α∈A>Σ_<j∈S>qij(a)υ(j,α+r(i,a,j))}(1) を満たす。さらに(π,σ)をP^π_<i_0>(σ【greater than or equal】1)=1とする。 (ii)(π,σ)が(i_0,α_0)最適なペアならばυ(i_0,α_0)=E^π_<i_0>[g(α_0+B(σ))]は(1)を満たす。 (iii)逆に,E^π_<i_0>[g(α_0+B(σ))]=υ(i_0,α_0)が(1)を満たせば,(π,σ)は(i_0,α_0)最適なペアとなる。
|