停止構造を持つマルコフ決定過程における数理モデルの研究

研究課題

研究課題/領域番号	16740060
研究種目	若手研究(B)
配分区分	補助金
研究分野	数学一般(含確率論・統計数学)
研究機関	弓削商船高等専門学校 (2006) 東京電機大学 (2004-2005)
研究代表者	堀口正之弓削商船高等専門学校, 総合教育科, 講師 (90366401)
研究期間 (年度)	2004 – 2006
研究課題ステータス	完了 (2006年度)
配分額 *注記	2,100千円 (直接経費: 2,100千円) 2006年度: 600千円 (直接経費: 600千円) 2005年度: 600千円 (直接経費: 600千円) 2004年度: 900千円 (直接経費: 900千円)
キーワード	マルコフ決定過程 / 平均期待利得 / 適応政策 / 学習アルゴリズム / 計画数学 / セミマルコフ決定過程 / 最適停止問題 / 数理計画問題 / 停止時刻
研究概要	本年度は、マルコフ決定過程における平均期待利得を評価基準とする最適化問題において、モデルの推移法則が未知の場合の解析手法とシミュレーションによる数値実験に取り組んだ。具体的には、・適応政策決定アルゴリズムの考察: 推移法則が未知であることから、システムでの状態観測情報のみによって各期での政策を決定していかなければならない。ニューロ・ダイナミック・プログラミングの視点に立ち、学習アルゴリズムとしてイプシロン強制による食欲政策(greedy policy)による評価関数と推移法則の推定について、その理論研究に取り組んだ。適切な条件のもと、提案した学習アルゴリズムによって逐次改定される価値関数の収束と適応政策の漸近的最適性を明らかにした。・シミュレーションによる数値実験: 強化学習の分野で提案されている学習アルゴリズムについて比較検討を行うとともに、本研究での手法の妥当性を数値実験により考察した。Howardの自動車取替え問題に対しては、これまでに状態集合の部分集合に対する準最適政策を得ることを示した。また、別の実験モデルに対して、状態観測頻度による最尤推定量に基づく学習アルゴリズムを用いて評価関数の推定値の漸近的挙動を視覚化し、アルゴリズムの改良に取り組んだ。これらの過程で、コンピュータ特有の計算誤差や時間の増大化を回避するためのアルゴリズム改良の必要性が明らかになった。また、停止構造を入れた推移法則未知のマルコフ決定過程についても、継続して今後の研究課題として取り組む。

報告書

(3件)

研究成果
(5件)

すべて 2007 2006 2005 2004

すべて雑誌論文 (5件)

[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2007
- 著者名/発表者名
  伊喜哲一郎, 堀口正之, 蔵野正美
- 雑誌名
  
  Mathematical Methods of Operations Research 電子版006-138-5
  
  ページ: 1-11
- 関連する報告書
  2006 実績報告書
[雑誌論文] A learning algorithm for communicating Markov decision processes with unknown transition matrices2006
- 著者名/発表者名
  伊喜哲一郎, 堀口正之, 蔵野正美, 安田正實
- 雑誌名
  
  京都大学数理解析研究所講究録1477「不確実性の下での意思決定と数理モデル」 1477
  
  ページ: 127-135
- NAID
  120001944229
- 関連する報告書
  2006 実績報告書
[雑誌論文] A modified pattern matrix algorithm for multichain MDPs2006
- 著者名/発表者名
  伊喜哲一郎, 堀口正之
- 雑誌名
  
  京都大学数理解析研究所講究録1504「情報決定過程論の展開」 1504
  
  ページ: 73-86
- 関連する報告書
  2006 実績報告書
[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2005
- 著者名/発表者名
  伊喜哲一郎, 堀口正之, 蔵野正美
- 雑誌名
  
  数理解析研究所講究録1461「最適化数理の手法と実際」 1461
  
  ページ: 202-213
- 関連する報告書
  2005 実績報告書
[雑誌論文] Stopped semi-Markov decision processes with multiple constraints2004
- 著者名/発表者名
  M.HORIGUCHI, M.KURANO
- 雑誌名
  
  Proceedings of the International Conference on Nonlinear Analysis and Convex Analysis 1
  
  ページ: 81-96
- 関連する報告書
  2004 実績報告書

停止構造を持つマルコフ決定過程における数理モデルの研究

研究代表者

堀口 正之 弓削商船高等専門学校, 総合教育科, 講師 (90366401)

2,100千円 (直接経費: 2,100千円)

報告書

研究成果

[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A learning algorithm for communicating Markov decision processes with unknown transition matrices2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A modified pattern matrix algorithm for multichain MDPs2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A structured pattern matrix algorithm for multichain Markov decision processes2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Stopped semi-Markov decision processes with multiple constraints2004

著者名/発表者名

雑誌名

関連する報告書

堀口正之弓削商船高等専門学校, 総合教育科, 講師 (90366401)