2016 Fiscal Year Research-status Report

推移確率行列未知のマルコフ決定過程の研究

Research Project

Project/Area Number	26400215
Research Institution	Kanagawa University
Principal Investigator	堀口正之神奈川大学, 理学部, 教授 (90366401)
Co-Investigator(Kenkyū-buntansha)	中井達千葉大学, 教育学部, 教授 (20145808)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	マルコフ決定過程 / 推移法則が未知の場合
Outline of Annual Research Achievements	状態空間と行動(意思決定)空間を持つ確率過程での最適化問題について、観測される状態のもとで未知の推移法則の推定と行動の決定の逐次適応型最適化問題について取り組んでいる。具体的には、状態の逐次観測と行動選択による推移結果によって構成される情報集合と事前区間測度から、ベイズ手法による推移法則の区間推定を行う。推移確率行列の各成分はそれぞれ閉区間として構成され、超平面上の凸集合によって構成される。凸解析での位相によって、区間型推移確率行列の演算が与えられ、最適化問題としては評価関数が集合値写像としての閉区間表現される区間型マルコフ決定過程として構成される。逐次観測のもとで構成される区間型確率行列から最適方程式が構成され、その最適解としての閉区間内の上限値と下限値の表現の導出に取り組んだ。今年度も継続して、品質管理モデルでのマルコフ決定過程のベイズアプローチの研究を行った。このモデルは、2状態または3状態の推移確率過程として、ひとたびシステムの劣化が発生すれば状態推移が区分確定的にジャンプのある確率制御過程として構成できることが知られていて、一般的な確率制御モデルと同様に最適方程式によって最適化問題が解析される。状態観測と行動選択情報から推定される推移法則の区間表現について、その区間を決定する変数としてパラメータ化したパーセンタイルタイプでのロバスト性の研究に取り組んだ。また、状態と行動に関する一般空間上での連続時間過程下の履歴依存型の最適解の解析に取り組んだ。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason マルコフ決定過程における評価関数の構成については、総期待利得、単位時間平均利得、有限停止時刻までの総期待利得など加法的評価とともに、閾値確率による評価の方法がある。パーセンタイルタイプの最適化アプローチでは、評価関数の閾値評価を推移法則未知の不確実環境下で行うことになる。推移法則の区間推定についてパラメータを含むものとして構成し、マルコフモデルの最適解の解析と具体的数値例の分析を行った。状態と行動に関する一般空間上でのモデル解析や、部分観測問題としての区間推定手法、経済モデルとしての具体的問題、最適停止問題としての従来研究との比較の議論についても、適宜、国内外の研究者との議論を深めた。また、成果発表と共同研究セミナーを実施して研究の目的は順調に進展している。
Strategy for Future Research Activity	これまでの研究計画と方法に継続して取り組むとともに、研究成果の各種学会、国際会議で発表する。具体的には（１）区間推定マルコフ決定過程（MDP）モデルについて、パーセンタイルタイプの評価関数の構成について、他のロバスト制御モデルとの比較などから特徴や優位性の研究に取り組む。（２）不確実性下での適応的政策、制御の問題の学習理論の研究に取り組むとともに、実用的問題を解析する逐次近似アルゴリズムの研究を行う。（３）上記の（１）と（２）に対する実際的な経済・社会科学モデルの研究として、引き続き品質管理問題や財に対する配分・支出問題の研究に取り組む。
Causes of Carryover	日程調整がつかずやむを得ず旅費支出の変更を行ったため残額を繰り越すこととした。
Expenditure Plan for Carryover Budget	主に次年度の旅費として計画的に使用する。

Research Products
(8 results)

All 2017 2016 Other

All Int'l Joint Research (2 results) Journal Article (4 results) (of which Int'l Joint Research: 1 results, Peer Reviewed: 2 results, Acknowledgement Compliant: 1 results) Presentation (2 results)

[Int'l Joint Research] University of Liverpool(英国)
- Country Name
  UNITED KINGDOM
- Counterpart Institution
  University of Liverpool
[Int'l Joint Research] Universite de Bordeaux(フランス)
- Country Name
  FRANCE
- Counterpart Institution
  Universite de Bordeaux
[Journal Article] Optimal Impulsive Control of Piecewise Deterministic Markov Processes2016
- Author(s)
  Dufour, F., Horiguchi M., and Piunovskiy, A. B
- Journal Title
  
  Stochastics
  
  Volume: 88 Pages: 1073,1098
- DOI
  http://dx.doi.org/10.1080/17442508.2016.1197925
- Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
[Journal Article] Interval Bayesian Method for Markov Decision Processes with Unknown Transition Matrices2016
- Author(s)
  Horiguchi, M.
- Journal Title
  
  Proceedings of the 2016 International Conference on Management and Operations Research
  
  Volume: - Pages: 284,287
- Peer Reviewed
[Journal Article] マルコフ決定過程におけるベイズ管理モデルについて2016
- Author(s)
  堀口正之
- Journal Title
  
  京都大学数理解析研究所講究録
  
  Volume: 1990 Pages: 73,80
[Journal Article] 決定回数が未知の多段決定問題について2016
- Author(s)
  中井達
- Journal Title
  
  京都大学数理解析研究所講究録
  
  Volume: 1990 Pages: 222,239
[Presentation] On a multivariate Bayesian control problem in Markov decision processes2017
- Author(s)
  堀口正之
- Organizer
  日本数学会
- Place of Presentation
  首都大学東京
- Year and Date
  2017-03-25
[Presentation] A Prior Detection Procedure on a Sequential Sampling Problem2016
- Author(s)
  堀口正之
- Organizer
  日本数学会
- Place of Presentation
  関西大学
- Year and Date
  2016-09-17

2016 Fiscal Year Research-status Report

推移確率行列未知のマルコフ決定過程の研究

Principal Investigator

堀口 正之 神奈川大学, 理学部, 教授 (90366401)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] University of Liverpool(英国)

Country Name

Counterpart Institution

[Int'l Joint Research] Universite de Bordeaux(フランス)

Country Name

Counterpart Institution

[Journal Article] Optimal Impulsive Control of Piecewise Deterministic Markov Processes2016

Author(s)

Journal Title

DOI

[Journal Article] Interval Bayesian Method for Markov Decision Processes with Unknown Transition Matrices2016

Author(s)

Journal Title

[Journal Article] マルコフ決定過程におけるベイズ管理モデルについて2016

Author(s)

Journal Title

[Journal Article] 決定回数が未知の多段決定問題について2016

Author(s)

Journal Title

[Presentation] On a multivariate Bayesian control problem in Markov decision processes2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A Prior Detection Procedure on a Sequential Sampling Problem2016

Author(s)

Organizer

Place of Presentation

Year and Date

堀口正之神奈川大学, 理学部, 教授 (90366401)