研究課題/領域番号 |
26400215
|
研究機関 | 神奈川大学 |
研究代表者 |
堀口 正之 神奈川大学, 理学部, 准教授 (90366401)
|
研究分担者 |
中井 達 千葉大学, 教育学部, 教授 (20145808)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | マルコフ決定過程 / 推移法則が未知の場合 |
研究実績の概要 |
推移法則未知のマルコフ決定過程における推定手法および学習理論の研究として、事前確率を区間で表現しそれをもとに事後区間推移確率を構成する区間推定型マルコフ決定モデルについて、discounted modelでの適応学習と最適政策について考察を行った。真の推移法則の情報が未知の場合には、状態観測と逐次決定により蓄積されていく情報集合に基づいてベイズ統計による推移法則の推定とその推定に基づく最適化モデルが構成される。推移法則の事前情報に区間測度表現を用いることで事後情報も区間表現とすることができる。それによって区間型の最適方程式が導かれ評価関数は上限と下限を持つ区間に表現される。さらに、構成されたマルコフ決定モデルにおける逐次意思決定の最適政策に関しては漸近的最適政策の存在をこのモデルでも導出することできた。 また、システムの状態が直接には観測できず間接的な情報からシステムの状態を推定し逐次意思決定を行うモデルである部分観測可能なマルコフ決定過程における問題として、2つの視点から研究に取り組んでいる。品質管理モデルにおける多変量ベイズ管理図については、システムの継続運用と検査(停止)実行の2決定の問題を扱いモデルパラメータに関して閾値をもつ最適政策の導出とその管理モデルの考察を行い、また、逐次支出問題についてはベイズ学習や確率的凸性に関する最適性の条件や多段支出問題における評価関数の性質について、それぞれ明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
推移法則未知のマルコフ決定過程において、discounted modelでの最適方程式と最適政策の構成に関する研究に取り組んでいる。逐次決定モデルにおける統計的推定と意思決定の問題について、ベイズ統計に基づく推定手法によって推移法則および評価関数に対する区間型表現と逐次決定政策の漸近的最適性を明らかにした。また、不完備情報におけるマルコフ決定過程での支出問題、部分観測モデルでの品質管理問題のそれぞれにおいても、ベイズ統計に基づく学習理論の研究によって、評価関数と逐次決定政策の最適性について諸性質の結果を得ており、適宜、成果発表やセミナーでの研究討議も行いながら研究に取り組み本研究の目的は順調に進展している。
|
今後の研究の推進方策 |
前年度の研究計画・方法を継続して進めると同時に、研究成果をまとめて各種の研究集会、学会、国際会議等で発表する。具体的には、(1)区間推定MDPモデルについて、完全情報下でのモデルとの比較から情報価値の評価に取り組む。また、未知情報を含む停止決定過程について、その区間推定最適化モデルの構築を目指す。(2)適応的政策の構成など不確実性の下でのマルコフ決定過程の制御問題についてその学習理論の研究に取り組む。また、アルゴリズムの開発では、実用的な実行可能性にも配慮し効率的な逐次近似アルゴリズムの構築に取り組む。(3)実際的な経済・社会問題に適用可能なモデル研究として、引き続き品質管理問題や支出問題の研究に取り組む。
|
次年度使用額が生じた理由 |
海外出張を伴う研究セミナーを実施予定であったが、日程や費用の調整の都合が最終的につかなかったため翌年度に繰り越すこととした。
|
次年度使用額の使用計画 |
2015年9月に前年度残額を加えた費用による研究セミナーを実施予定である。
|