研究概要 |
研究実施計画の役割分担に従って,下記の研究成果を得た. (1)研究代表者は,目標集合をもつミニマム型の無限時間決定過程を研究した.再帰クラスを伴うマルコフ決定過程として定式化し,ある条件の下で,最適値関数が最適方程式の一意解であることを示し.最適定常政策の存在を示した.これらの成果は論文としてまとめ,雑誌に掲載予定である. (2)研究代表者は,ミニマム型の多段決定過程を研究した.埋め込まれたパラメータをもつマルコフ決定過程として定式化した.政策は過去の埋め込まれたパラメータを含むヒストリーに依存していて,各時間での利得はランダムで現在の状態とアクション,次の状態に依存している.作用素を用いて最適方程式を与え,右連続な確定的マルコフな最適政策が存在することを示した.これらの成果は論文としてまとめ,発表した. (3)安田正實は,効用制約マルコフ決定過程を研究した.複数期待効用制約の下で,期待総割引利得を最大化し,ラグランジェ関数を導入して,この最適問題の鞍点定理を得た.また,最適政策の存在をパラメータ化して最適行動集合によって特徴付けた.これらの成果は論文としてまとめ,発表した. (4)岩本誠一は,1変数関数間,または2変数関数間の6つの黄金不等式を研究した.1変数関数に対する黄金不等式の4つの組の間の交叉双対(cross-duality)を示し,同様に2変数関数についても結果を紹介した.また,グラフを用いてこれらの黄金不等式を示した.これらの成果は論文としてまとめ,発表した. (5)野間口謙太郎は,sigma^2とaが既知のとき,正規分布N(theta,sigma^2)からの確率変数Xを用いたPhi(a theta)の不偏推定を考え,|a|>1/sigmaの場合に,その非存在であることを論じた.この成果は論文としてまとめ,発表した. (4)新関章三(研究協力者)は,可測関数列が測度の意味で収東することと,位相の意味で収東することとが同地であることを示し,その位相空間がハウスドルフ空間となり,第1可算公理をみたすことを示した.この成果は論文としてまとめ,発表した.
|