• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

マルコフ決定過程における分散および期待効用に関する最適化の研究

研究課題

研究課題/領域番号 08640284
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 数学一般(含確率論・統計数学)
研究機関和歌山大学

研究代表者

門田 良信  和歌山大学, 教育学部, 助教授 (90116294)

研究分担者 片山 聡一郎  和歌山大学, 教育学部, 講師 (70283942)
森杉 馨  和歌山大学, 教育学部, 教授 (00031807)
研究期間 (年度) 1996
研究課題ステータス 完了 (1996年度)
配分額 *注記
300千円 (直接経費: 300千円)
1996年度: 300千円 (直接経費: 300千円)
研究概要

マルコフ決定過程(MDP)の期待値最大化の下での分散最小化に関して次の結果を得た。
MDPを可算状態空間S,有限決定空間A(i),推移確率p=(p(a)_<ij>;i,j∈S),一様有界な直接利得{r(i,a);i∈S,a∈A(i)}で定義する。政策をπ=(π_0,π_1,…),特に定常政策をfで表わす。初期状態i∈Sと政策πによって定まる標本空間上の確率をP^π_iとし,P^π_iによる期待値と分散を,それぞれE^π_i(・),V^π_i(・)と表わす。平均期待利得と(平均)分散を
x(i,π)=<lim inf>___<n→∞>1/(n+1)E^π_i[Σ^^n__<k-0>r(X_k,Δ_k)],ψ(i,π)=<lim sup>___<n→∞>1/(n+1)V^π_i[Σ^^n__<k=0>r(X_k,Δ_k)]
によって定義する。x(i,π^*)=max{x(i,π);πはすべての政策}を満たすπ^*を平均最適政策と呼ぶ。
Theorem 1.定数b>0と状態0∈Sが存在して,任意の定常政策fに対して
m(f)_<i0>=Σ^^∞__<n-1>nP^f_i(X_k≠0 for 1【less than or equal】k<n,X_n=0)【less than or equal】b
が成立すると仮定する。
(i)定常政策f^〜が存在して、政策πが任意のi∈Sについて
<lim>___<n→∞>1/(n+1)V^π_i(Σ^^n__<k0>(〓(X_k,Δ_k))=0かつ<lim sup>___<n→∞>1/(n+1)Σ^^n__<k-0>E^π_i(〓^〜(X_k,Δ_k))【greater than or equal】0
を満たせば,ψ(i,f^〜)【less than or equal】ψ(i,π)。(ここで,〓,〓^〜は,それぞれx(i,π),ψ(i,π)に関する最適方程式から得られる関数。)
(ii)Sが有限ならば、(i)のf^〜は,平均最適政策の中で最小の分散を与える。
また,(iii)ψ(i,f)をdeviation行列を使ってexplicitに求めた。(iv)過渡的状態i∈Sから出発して2つ以上の再帰的クラスに到達するとき,ψ(i,f)=∞となることを示した。
上記では,r(i,a)は関数であるが,これを確率変数として与えた場合にも、類似の結果が得られることを示した。

報告書

(1件)
  • 1996 実績報告書
  • 研究成果

    (9件)

すべて その他

すべて 文献書誌 (9件)

  • [文献書誌] Y.Kadota,M.Kurano,M.Yasuda: "A utility deviation in discounted Markov decision processes with general utility" Bulletin of Informatics and Cybernetics. 28,1. 71-78 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] Y.Kadota: "Simultaneous recurrent conditions on countable state Markov chains" Journal of Information and Optimization Sciences. 17,2. 397-407 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] Y.Kadota: "A minimum average-variance in Markov decision processes" accepted to Bulletin of Informatics and Cybernetics. 29,1. (1997)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] Y.Kadota: "Risk-aversion for stopping times on Markov chains" accepted to Bulletin of the faculty of Education,Wakayama University-Natural Science-. 47. 1-6 (1997)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] K.Morisugi,H.Oshima: "Note on reflection maps and self maps of U(n),Sp(n)and U(2n)/Sp" Journal of Mathematics in Kyoto University. 36,1. 143-149 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] K.Morisugi,H.Oshima: "Cohomology classification of self maps of sphere bundles over spheres" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 32,1. 163-189 (1996)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] Y.Hemmi,K.Morisugi,H.Oshima: "Self maps of spaces" accepted to Journal of Mathematical Society of Japan.

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] S.Katayama: "Global existence for systems of nonlinear wave equations in two space dimmensions,II" Publications of the Research Institute for Mathematical Sciences,Kyoto University. 31. 645-665 (1995)

    • 関連する報告書
      1996 実績報告書
  • [文献書誌] 片山聡一郎: "非線型Klein-Gordon方程式の大域解の存在に対する一注意" 数理解析研究所講究録969. 969. 168-177 (1996)

    • 関連する報告書
      1996 実績報告書

URL: 

公開日: 1996-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi