1995 年度実績報告書

確率的多段決定過程における期待効用と危険度の最適化に関する研究

研究課題

研究課題/領域番号	07640307
研究機関	和歌山大学
研究代表者	門田良信和歌山大学, 教育学部, 助教授 (90116294)
研究分担者	遠藤秀機和歌山大学, 教育学部, 教授 (90031799) 福井誠一和歌山大学, 教育学部, 教授 (50031795) 貴志一男和歌山大学, 教育学部, 教授 (70043453) 佐藤英雄和歌山大学, 教育学部, 助教授 (20107999) 森杉馨和歌山大学, 教育学部, 教授 (00031807)
キーワード	Markov decision process / utility function / utility optimal policy / utility deviation / risk premium / OLA-stopping time
研究概要	マルコフ決定過程(S,A,qij(a),r(i,a))と効用関数gについて,present value βの期待効用に関する最適政策の存在と最適方程式に関する研究が,昨年までに行われていた.本年度は次の結果を得た. 1.状態空間Sは可算集合,gはBorel可測,各時点t=0,1,2,・・・で停止すれば利得r(i)を得,続行すればcだけ失うとする.時刻t+1以後において最適に停止する期待効用よりも時刻tで停止した方が良い状態の集合を定義してS^_t{g}で表し,σ^を,初めてS^_t{g}に入った時点で停止するstopping timeとする. (1)σ^がg-最適stopping timeになるための十分条件を得た. (2)時刻t+1において停止する期待効用よりも時刻tで停止した方が良い状態の集合を,S_t{g}で表し,σを,初めてS_t{g}に入った時点で停止する(OLA)stopping timeとする.{S_t{g}}が状態推移に関してclosedならば,σ=σ^*となる. 2.状態空間は有限,効用関数gは狭義単調増加とする.risk premium ρ^π_i(β)=E^π_i(β)-g^<-1>(E^π_i(g(β)))に対して,マルコフ決定過程のutility deviationを,present value β,政策π,初期状態iについて,k^π_i=E^π_i{g(β)}-g(E^π_i(β))と定義する.政策に対応した分布の集合上のoperator Tをうまく定義すると,k^π=(k^π_i;i∈S)に関するベクトル方程式k^π=g_i+Σ_<j∈S>qij(π)k^π(T^i(F^π)j)を得る.risk premiumの再帰式は大変複雑であるが,これを使ってrisk premiumが研究できる.例えば,期待利得最大の下でのrisk premium最小化問題については,Σ_<j∈S>qij(a)<1のときに最適政策が存在するための十分条件と,最適方程式が見つかった.

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] Yoshinobu Kadota 他2名: "Utility-optimal stopping in a denumerable Markov chain." Bulletin of informatics and cybernetics. 28(to appear). (1996)
[文献書誌] Kaoru Morisugi 他2名: "Self maps of spaces." Proc.J.Math.Soc.(to appear). (1996)
[文献書誌] Y.Iwanaga and H.Sato: "On Auslander's n-Gorenstein rings." Journal of pure and applied algebra. 106. 61-76 (1996)
[文献書誌] Kazuo Kishi: "A set in the fiber of M (H^∞) over the point 1." Archiv der Mathematik. (to appear).
[文献書誌] Seiichi Fukui: "α-convex functions of β." Proc.of third finite and infinite dimensional complex analysis. 169-172 (1995)
[文献書誌] Hideki Endo: "Correspondence analysis of an artificial bynary cylinder data." Statistics and probability letters.25. 231-240 (1995)

1995 年度 実績報告書

確率的多段決定過程における期待効用と危険度の最適化に関する研究

研究代表者

門田 良信 和歌山大学, 教育学部, 助教授 (90116294)

研究成果

[文献書誌] Yoshinobu Kadota 他2名: "Utility-optimal stopping in a denumerable Markov chain." Bulletin of informatics and cybernetics. 28(to appear). (1996)

[文献書誌] Kaoru Morisugi 他2名: "Self maps of spaces." Proc.J.Math.Soc.(to appear). (1996)

[文献書誌] Y.Iwanaga and H.Sato: "On Auslander's n-Gorenstein rings." Journal of pure and applied algebra. 106. 61-76 (1996)

[文献書誌] Kazuo Kishi: "A set in the fiber of M (H^∞) over the point 1." Archiv der Mathematik. (to appear).

[文献書誌] Seiichi Fukui: "α-convex functions of β." Proc.of third finite and infinite dimensional complex analysis. 169-172 (1995)

[文献書誌] Hideki Endo: "Correspondence analysis of an artificial bynary cylinder data." Statistics and probability letters.25. 231-240 (1995)

1995 年度実績報告書

門田良信和歌山大学, 教育学部, 助教授 (90116294)