研究分担者 |
遠藤 秀機 和歌山大学, 教育学部, 教授 (90031799)
福井 誠一 和歌山大学, 教育学部, 教授 (50031795)
貴志 一男 和歌山大学, 教育学部, 教授 (70043453)
佐藤 英雄 和歌山大学, 教育学部, 助教授 (20107999)
森杉 馨 和歌山大学, 教育学部, 教授 (00031807)
|
研究概要 |
マルコフ決定過程(S,A,qij(a),r(i,a))と効用関数gについて,present value βの期待効用に関する最適政策の存在と最適方程式に関する研究が,昨年までに行われていた.本年度は次の結果を得た. 1.状態空間Sは可算集合,gはBorel可測,各時点t=0,1,2,・・・で停止すれば利得r(i)を得,続行すればcだけ失うとする.時刻t+1以後において最適に停止する期待効用よりも時刻tで停止した方が良い状態の集合を定義してS^*_t{g}で表し,σ^*を,初めてS^*_t{g}に入った時点で停止するstopping timeとする. (1)σ^*がg-最適stopping timeになるための十分条件を得た. (2)時刻t+1において停止する期待効用よりも時刻tで停止した方が良い状態の集合を,S_t{g}で表し,σを,初めてS_t{g}に入った時点で停止する(OLA)stopping timeとする.{S_t{g}}が状態推移に関してclosedならば,σ=σ^*となる. 2.状態空間は有限,効用関数gは狭義単調増加とする.risk premium ρ^π_i(β)=E^π_i(β)-g^<-1>(E^π_i(g(β)))に対して,マルコフ決定過程のutility deviationを,present value β,政策π,初期状態iについて,k^π_i=E^π_i{g(β)}-g(E^π_i(β))と定義する.政策に対応した分布の集合上のoperator Tをうまく定義すると,k^π=(k^π_i;i∈S)に関するベクトル方程式k^π=g_i+Σ_<j∈S>qij(π)k^π(T^i(F^π)j)を得る.risk premiumの再帰式は大変複雑であるが,これを使ってrisk premiumが研究できる.例えば,期待利得最大の下でのrisk premium最小化問題については,Σ_<j∈S>qij(a)<1のときに最適政策が存在するための十分条件と,最適方程式が見つかった.
|