• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

マルコフ決定過程における分散および期待効用に関する最適化の研究

Research Project

Project/Area Number 08640284
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeSingle-year Grants
Section一般
Research Field General mathematics (including Probability theory/Statistical mathematics)
Research InstitutionWakayama University

Principal Investigator

門田 良信  和歌山大学, 教育学部, 助教授 (90116294)

Co-Investigator(Kenkyū-buntansha) 片山 聡一郎  和歌山大学, 教育学部, 講師 (70283942)
森杉 馨  和歌山大学, 教育学部, 教授 (00031807)
Project Period (FY) 1996
Project Status Completed (Fiscal Year 1996)
Budget Amount *help
¥300,000 (Direct Cost: ¥300,000)
Fiscal Year 1996: ¥300,000 (Direct Cost: ¥300,000)
Research Abstract

マルコフ決定過程(MDP)の期待値最大化の下での分散最小化に関して次の結果を得た。
MDPを可算状態空間S,有限決定空間A(i),推移確率p=(p(a)_<ij>;i,j∈S),一様有界な直接利得{r(i,a);i∈S,a∈A(i)}で定義する。政策をπ=(π_0,π_1,…),特に定常政策をfで表わす。初期状態i∈Sと政策πによって定まる標本空間上の確率をP^π_iとし,P^π_iによる期待値と分散を,それぞれE^π_i(・),V^π_i(・)と表わす。平均期待利得と(平均)分散を
x(i,π)=<lim inf>___<n→∞>1/(n+1)E^π_i[Σ^^n__<k-0>r(X_k,Δ_k)],ψ(i,π)=<lim sup>___<n→∞>1/(n+1)V^π_i[Σ^^n__<k=0>r(X_k,Δ_k)]
によって定義する。x(i,π^*)=max{x(i,π);πはすべての政策}を満たすπ^*を平均最適政策と呼ぶ。
Theorem 1.定数b>0と状態0∈Sが存在して,任意の定常政策fに対して
m(f)_<i0>=Σ^^∞__<n-1>nP^f_i(X_k≠0 for 1【less than or equal】k<n,X_n=0)【less than or equal】b
が成立すると仮定する。
(i)定常政策f^〜が存在して、政策πが任意のi∈Sについて
<lim>___<n→∞>1/(n+1)V^π_i(Σ^^n__<k0>(〓(X_k,Δ_k))=0かつ<lim sup>___<n→∞>1/(n+1)Σ^^n__<k-0>E^π_i(〓^〜(X_k,Δ_k))【greater than or equal】0
を満たせば,ψ(i,f^〜)【less than or equal】ψ(i,π)。(ここで,〓,〓^〜は,それぞれx(i,π),ψ(i,π)に関する最適方程式から得られる関数。)
(ii)Sが有限ならば、(i)のf^〜は,平均最適政策の中で最小の分散を与える。
また,(iii)ψ(i,f)をdeviation行列を使ってexplicitに求めた。(iv)過渡的状態i∈Sから出発して2つ以上の再帰的クラスに到達するとき,ψ(i,f)=∞となることを示した。
上記では,r(i,a)は関数であるが,これを確率変数として与えた場合にも、類似の結果が得られることを示した。

Report

(1 results)
  • 1996 Annual Research Report
  • Research Products

    (9 results)

All Other

All Publications (9 results)

  • [Publications] Y.Kadota,M.Kurano,M.Yasuda: "A utility deviation in discounted Markov decision processes with general utility" Bulletin of Informatics and Cybernetics. 28,1. 71-78 (1996)

    • Related Report
      1996 Annual Research Report
  • [Publications] Y.Kadota: "Simultaneous recurrent conditions on countable state Markov chains" Journal of Information and Optimization Sciences. 17,2. 397-407 (1996)

    • Related Report
      1996 Annual Research Report
  • [Publications] Y.Kadota: "A minimum average-variance in Markov decision processes" accepted to Bulletin of Informatics and Cybernetics. 29,1. (1997)

    • Related Report
      1996 Annual Research Report
  • [Publications] Y.Kadota: "Risk-aversion for stopping times on Markov chains" accepted to Bulletin of the faculty of Education,Wakayama University-Natural Science-. 47. 1-6 (1997)

    • Related Report
      1996 Annual Research Report
  • [Publications] K.Morisugi,H.Oshima: "Note on reflection maps and self maps of U(n),Sp(n)and U(2n)/Sp" Journal of Mathematics in Kyoto University. 36,1. 143-149 (1996)

    • Related Report
      1996 Annual Research Report
  • [Publications] K.Morisugi,H.Oshima: "Cohomology classification of self maps of sphere bundles over spheres" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 32,1. 163-189 (1996)

    • Related Report
      1996 Annual Research Report
  • [Publications] Y.Hemmi,K.Morisugi,H.Oshima: "Self maps of spaces" accepted to Journal of Mathematical Society of Japan.

    • Related Report
      1996 Annual Research Report
  • [Publications] S.Katayama: "Global existence for systems of nonlinear wave equations in two space dimmensions,II" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 31. 645-665 (1995)

    • Related Report
      1996 Annual Research Report
  • [Publications] 片山聡一郎: "非線型Klein-Gordon方程式の大域解の存在に対する一注意" 数理解析研究所講究録969. 969. 168-177 (1996)

    • Related Report
      1996 Annual Research Report

URL: 

Published: 1996-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi