研究概要 |
マルコフ決定過程(MDP)の期待値最大化の下での分散最小化に関して次の結果を得た。 MDPを可算状態空間S,有限決定空間A(i),推移確率p=(p(a)_<ij>;i,j∈S),一様有界な直接利得{r(i,a);i∈S,a∈A(i)}で定義する。政策をπ=(π_0,π_1,…),特に定常政策をfで表わす。初期状態i∈Sと政策πによって定まる標本空間上の確率をP^π_iとし,P^π_iによる期待値と分散を,それぞれE^π_i(・),V^π_i(・)と表わす。平均期待利得と(平均)分散を x(i,π)=<lim inf>___<n→∞>1/(n+1)E^π_i[Σ^^n__<k-0>r(X_k,Δ_k)],ψ(i,π)=<lim sup>___<n→∞>1/(n+1)V^π_i[Σ^^n__<k=0>r(X_k,Δ_k)] によって定義する。x(i,π^*)=max{x(i,π);πはすべての政策}を満たすπ^*を平均最適政策と呼ぶ。 Theorem 1.定数b>0と状態0∈Sが存在して,任意の定常政策fに対して m(f)_<i0>=Σ^^∞__<n-1>nP^f_i(X_k≠0 for 1【less than or equal】k<n,X_n=0)【less than or equal】b が成立すると仮定する。 (i)定常政策f^〜が存在して、政策πが任意のi∈Sについて <lim>___<n→∞>1/(n+1)V^π_i(Σ^^n__<k0>(〓(X_k,Δ_k))=0かつ<lim sup>___<n→∞>1/(n+1)Σ^^n__<k-0>E^π_i(〓^〜(X_k,Δ_k))【greater than or equal】0 を満たせば,ψ(i,f^〜)【less than or equal】ψ(i,π)。(ここで,〓,〓^〜は,それぞれx(i,π),ψ(i,π)に関する最適方程式から得られる関数。) (ii)Sが有限ならば、(i)のf^〜は,平均最適政策の中で最小の分散を与える。 また,(iii)ψ(i,f)をdeviation行列を使ってexplicitに求めた。(iv)過渡的状態i∈Sから出発して2つ以上の再帰的クラスに到達するとき,ψ(i,f)=∞となることを示した。 上記では,r(i,a)は関数であるが,これを確率変数として与えた場合にも、類似の結果が得られることを示した。
|