1999 Fiscal Year Annual Research Report
一般効用関数をもつ確率的決定過程の最適化理論とその応用に関する研究
Project/Area Number |
11640118
|
Research Institution | Wakayama University |
Principal Investigator |
門田 良信 和歌山大学, 教育学部, 教授 (90116294)
|
Co-Investigator(Kenkyū-buntansha) |
安田 正實 千葉大学, 理学部, 教授 (00041244)
蔵野 正美 千葉大学, 教育学部, 教授 (70029487)
|
Keywords | Markov / decision / stopping / utility / optimal / concave |
Research Abstract |
マルコフ決定過程(S,A,q,r)を考える。ここで、S={1,2,…}は空間状態、Aは決定空間、q=(q_<ij>(a))(i,j∈S,a∈A)は推移確立、r(i,a,j)は一様有界な利得とする。Aはコンパクト距離空間、q=(q_<ij>(a)),r(i,a,J)はa∈Aについて連続とする。 時刻t=0,1,2…の状態と決定を確率変数X_t,Δ^tで表す。X^k、Δ、0【greater than or similar】k【greater than or similar】t-1とX_tに関するA上の条件付つき確率のtに関する列を政策と呼んでπと表す。また、過程をtで停止させるときにσ=tで定義される非負整数値確率変数σを停止時刻と呼ぶ。gを実数から自身への非減少連続関数とする。g^+をgの正値部分とする。 Β(t)=Σ^t_k=0^r(X_<k-1>、Δ_<k-1>、X_k)とする。状態の初期分布υに対して加算直積空間Ω=(S×A)^∞上の確率P^π_υが定まる。この期待値E^π_υ[g(σ))]を最大化する(π、σ)を最適なペアと呼ぶ。いま、特殊な(π^*、σ^*)をうまい方法で定義する。(詳細は省略。) Theorem gは微分可能で導関数は有界であり、(π、σ)に対してE^π_υ[sup_<t【forward curved arrow】0>g^+(B(t))]は一様有界とする。 (i)P^π_υ^*(σ^*<∞)=1ならば(π^*、σ^*)はすべてのυに対して最適ペアとなる。 (ii)g(B(n))→-∞(as n→∞)P^π_υ^*-a.s.ならばP^π_υ^*(σ^*<∞)は成立する。 また、上記Theoremは、仮定「gは凹関数で上に有界」としても成立する。(π^*、σ^*)は、各tでX_tとB(t)によって定まるのであるが、gが指数関数のときにはX_tの値だけで定まる。またこのTheoremは、最適方程式を導出することによって示され、(π^*、σ^*)のもつある性質も導かれた。
|
Research Products
(1 results)