2014 年度実施状況報告書

推移確率行列未知のマルコフ決定過程の研究

研究課題

研究課題/領域番号	26400215
研究機関	神奈川大学
研究代表者	堀口正之神奈川大学, 理学部, 准教授 (90366401)
研究分担者	中井達千葉大学, 教育学部, 教授 (20145808)
研究期間 (年度)	2014-04-01 – 2018-03-31
キーワード	マルコフ決定過程 / 推移法則が未知の場合
研究実績の概要	推移法則未知のマルコフ決定過程における推定手法および学習理論の研究として、事前確率を区間で表現しそれをもとに事後区間推移確率を構成する区間推定型マルコフ決定モデルについて、discounted modelでの適応学習と最適政策について考察を行った。真の推移法則の情報が未知の場合には、状態観測と逐次決定により蓄積されていく情報集合に基づいてベイズ統計による推移法則の推定とその推定に基づく最適化モデルが構成される。推移法則の事前情報に区間測度表現を用いることで事後情報も区間表現とすることができる。それによって区間型の最適方程式が導かれ評価関数は上限と下限を持つ区間に表現される。さらに、構成されたマルコフ決定モデルにおける逐次意思決定の最適政策に関しては漸近的最適政策の存在をこのモデルでも導出することできた。また、システムの状態が直接には観測できず間接的な情報からシステムの状態を推定し逐次意思決定を行うモデルである部分観測可能なマルコフ決定過程における問題として、2つの視点から研究に取り組んでいる。品質管理モデルにおける多変量ベイズ管理図については、システムの継続運用と検査（停止）実行の2決定の問題を扱いモデルパラメータに関して閾値をもつ最適政策の導出とその管理モデルの考察を行い、また、逐次支出問題についてはベイズ学習や確率的凸性に関する最適性の条件や多段支出問題における評価関数の性質について、それぞれ明らかにした。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由推移法則未知のマルコフ決定過程において、discounted modelでの最適方程式と最適政策の構成に関する研究に取り組んでいる。逐次決定モデルにおける統計的推定と意思決定の問題について、ベイズ統計に基づく推定手法によって推移法則および評価関数に対する区間型表現と逐次決定政策の漸近的最適性を明らかにした。また、不完備情報におけるマルコフ決定過程での支出問題、部分観測モデルでの品質管理問題のそれぞれにおいても、ベイズ統計に基づく学習理論の研究によって、評価関数と逐次決定政策の最適性について諸性質の結果を得ており、適宜、成果発表やセミナーでの研究討議も行いながら研究に取り組み本研究の目的は順調に進展している。
今後の研究の推進方策	前年度の研究計画・方法を継続して進めると同時に、研究成果をまとめて各種の研究集会、学会、国際会議等で発表する。具体的には、（１）区間推定MDPモデルについて、完全情報下でのモデルとの比較から情報価値の評価に取り組む。また、未知情報を含む停止決定過程について、その区間推定最適化モデルの構築を目指す。（２）適応的政策の構成など不確実性の下でのマルコフ決定過程の制御問題についてその学習理論の研究に取り組む。また、アルゴリズムの開発では、実用的な実行可能性にも配慮し効率的な逐次近似アルゴリズムの構築に取り組む。（３）実際的な経済・社会問題に適用可能なモデル研究として、引き続き品質管理問題や支出問題の研究に取り組む。
次年度使用額が生じた理由	海外出張を伴う研究セミナーを実施予定であったが、日程や費用の調整の都合が最終的につかなかったため翌年度に繰り越すこととした。
次年度使用額の使用計画	２０１５年９月に前年度残額を加えた費用による研究セミナーを実施予定である。

研究成果
(7件)

すべて 2015 2014

すべて雑誌論文 (2件) (うちオープンアクセス 1件) 学会発表 (5件)

[雑誌論文] 多変量ベイズ管理図の適応手法2014
- 著者名/発表者名
  佐々木稔、堀口正之、蔵野正美
- 雑誌名
  
  京都大学数理解析研究所講究録
  
  巻: 1912 ページ: 181,192
- オープンアクセス
[雑誌論文] 確率的凸性と部分観測可能なマルコフ決定過程について2014
- 著者名/発表者名
  中井達
- 雑誌名
  
  京都大学数理解析研究所講究録
  
  巻: 1912 ページ: 193,201
[学会発表] 不完備情報マルコフ過程での逐次支出問題について2015
- 著者名/発表者名
  中井達
- 学会等名
  日本オペレーションズ・リサーチ学会 2015年度春期研究発表会
- 発表場所
  東京理科大学
- 年月日
  2015-03-27
[学会発表] 推移確率行列未知のマルコフ決定過程について2015
- 著者名/発表者名
  堀口正之
- 学会等名
  日本オペレーションズ・リサーチ学会常設研究部会「待ち行列研究部会」(第252回)
- 発表場所
  東京工業大学
- 年月日
  2015-02-19
[学会発表] Adaptive Markov Control Processesについて2014
- 著者名/発表者名
  堀口正之
- 学会等名
  日本オペレーションズ・リサーチ学会研究部会確率モデルとその応用 (第３回)
- 発表場所
  放送大学　千葉学習センター
- 年月日
  2014-09-03
[学会発表] 不完備情報マルコフ過程での決定問題と確率的凸性について2014
- 著者名/発表者名
  中井達
- 学会等名
  日本オペレーションズ・リサーチ学会 2014年度秋期研究発表会
- 発表場所
  北海道科学大学
- 年月日
  2014-08-28
[学会発表] A partially observable Markov decision process under stochastic convexity as an optimal maintenance problem2014
- 著者名/発表者名
  T. Nakai
- 学会等名
  20th Conference of the International Federation of Operational Research Societies
- 発表場所
  Barcelona, Spain
- 年月日
  2014-07-17

2014 年度 実施状況報告書

推移確率行列未知のマルコフ決定過程の研究

研究代表者

堀口 正之 神奈川大学, 理学部, 准教授 (90366401)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 多変量ベイズ管理図の適応手法2014

著者名/発表者名

雑誌名

[雑誌論文] 確率的凸性と部分観測可能なマルコフ決定過程について2014

著者名/発表者名

雑誌名

[学会発表] 不完備情報マルコフ過程での逐次支出問題について2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 推移確率行列未知のマルコフ決定過程について2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Adaptive Markov Control Processesについて2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 不完備情報マルコフ過程での決定問題と確率的凸性について2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A partially observable Markov decision process under stochastic convexity as an optimal maintenance problem2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

堀口正之神奈川大学, 理学部, 准教授 (90366401)