2017 Fiscal Year Annual Research Report
On a study of Markov decision processes with unknown transition matrices
Project/Area Number |
26400215
|
Research Institution | Kanagawa University |
Principal Investigator |
堀口 正之 神奈川大学, 理学部, 教授 (90366401)
|
Co-Investigator(Kenkyū-buntansha) |
中井 達 千葉大学, 教育学部, 教授 (20145808)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | マルコフ決定過程 / 推移法則が未知の場合 |
Outline of Annual Research Achievements |
状態観測とその状態における意思決定によって確率的に推移する多段意思決定過程と呼ばれる動的モデルでの最適化問題について、観測される状態のもとで未知の推移法則の推定と行動の決定の逐次適応型最適化問題について取り組んでいる。具体的には、状態の逐次観測と行動選択による推移結果によって構成される情報集合と事前区間測度から、ベイズ手法による推移法則の区間推定を行う。ただし、システムの状態は、別の観測データから確率的に推測される部分観測モデルである場合を含む。推移確率行列の各成分はそれぞれ閉区間として推測されて、凸解析での位相による区間型推移確率行列の演算が与えられる。これらの準備のもとで、最適化問題として評価関数が集合値写像としての閉区間表現される区間推定型マルコフ決定過程が構成される。さらに、逐次観測のもとで構成される区間型確率行列から最適方程式が導出され、その最適解としての閉区間内の上限値と下限値による区間型評価方法を構築した。本年度もパーセンタイル型の評価関数形式における解の導出と、最適解としての最適政策のロバスト性の研究を行った。また、区間型マルコフ決定過程の適応的最適解の漸近的性質の考察として、評価関数値の収束の速さに関する研究に取り組んだ。 また、ベイズ最適停止問題におけるベータ分布族での有限試行停止規則として、試行回数の残数に応じた最適行動および評価関数の性質の研究にも取り組んだ。さらに、品質管理問題として標本の逐次観測状況にファジィ正規分布モデルを仮定した場合の管理図に関して、乱数発生シミュレーションによる分析にも取り組み、このほか、若手研究者とマルコフモデルの応用分野(生物統計およびレベニューマネジメント)に関してそれぞれ研究セミナー及び討議を実施した。
|