2016 Fiscal Year Research-status Report
Project/Area Number |
26400215
|
Research Institution | Kanagawa University |
Principal Investigator |
堀口 正之 神奈川大学, 理学部, 教授 (90366401)
|
Co-Investigator(Kenkyū-buntansha) |
中井 達 千葉大学, 教育学部, 教授 (20145808)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | マルコフ決定過程 / 推移法則が未知の場合 |
Outline of Annual Research Achievements |
状態空間と行動(意思決定)空間を持つ確率過程での最適化問題について、観測される状態のもとで未知の推移法則の推定と行動の決定の逐次適応型最適化問題について取り組んでいる。具体的には、状態の逐次観測と行動選択による推移結果によって構成される情報集合と事前区間測度から、ベイズ手法による推移法則の区間推定を行う。推移確率行列の各成分はそれぞれ閉区間として構成され、超平面上の凸集合によって構成される。凸解析での位相によって、区間型推移確率行列の演算が与えられ、最適化問題としては評価関数が集合値写像としての閉区間表現される区間型マルコフ決定過程として構成される。逐次観測のもとで構成される区間型確率行列から最適方程式が構成され、その最適解としての閉区間内の上限値と下限値の表現の導出に取り組んだ。今年度も継続して、品質管理モデルでのマルコフ決定過程のベイズアプローチの研究を行った。このモデルは、2状態または3状態の推移確率過程として、ひとたびシステムの劣化が発生すれば状態推移が区分確定的にジャンプのある確率制御過程として構成できることが知られていて、一般的な確率制御モデルと同様に最適方程式によって最適化問題が解析される。状態観測と行動選択情報から推定される推移法則の区間表現について、その区間を決定する変数としてパラメータ化したパーセンタイルタイプでのロバスト性の研究に取り組んだ。また、状態と行動に関する一般空間上での連続時間過程下の履歴依存型の最適解の解析に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
マルコフ決定過程における評価関数の構成については、総期待利得、単位時間平均利得、有限停止時刻までの総期待利得など加法的評価とともに、閾値確率による評価の方法がある。パーセンタイルタイプの最適化アプローチでは、評価関数の閾値評価を推移法則未知の不確実環境下で行うことになる。推移法則の区間推定についてパラメータを含むものとして構成し、マルコフモデルの最適解の解析と具体的数値例の分析を行った。状態と行動に関する一般空間上でのモデル解析や、部分観測問題としての区間推定手法、経済モデルとしての具体的問題、最適停止問題としての従来研究との比較の議論についても、適宜、国内外の研究者との議論を深めた。また、成果発表と共同研究セミナーを実施して研究の目的は順調に進展している。
|
Strategy for Future Research Activity |
これまでの研究計画と方法に継続して取り組むとともに、研究成果の各種学会、国際会議で発表する。 具体的には (1)区間推定マルコフ決定過程(MDP)モデルについて、パーセンタイルタイプの評価関数の構成について、他のロバスト制御モデルとの比較などから特徴や優位性の研究に取り組む。 (2)不確実性下での適応的政策、制御の問題の学習理論の研究に取り組むとともに、実用的問題を解析する逐次近似アルゴリズムの研究を行う。 (3)上記の(1)と(2)に対する実際的な経済・社会科学モデルの研究として、引き続き品質管理問題や財に対する配分・支出問題の研究に取り組む。
|
Causes of Carryover |
日程調整がつかずやむを得ず旅費支出の変更を行ったため残額を繰り越すこととした。
|
Expenditure Plan for Carryover Budget |
主に次年度の旅費として計画的に使用する。
|