• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

停止構造を持つマルコフ決定過程における数理モデルの研究

Research Project

Project/Area Number 16740060
Research Category

Grant-in-Aid for Young Scientists (B)

Allocation TypeSingle-year Grants
Research Field General mathematics (including Probability theory/Statistical mathematics)
Research InstitutionYuge National College of Maritime Technology (2006)
Tokyo Denki University (2004-2005)

Principal Investigator

堀口 正之  弓削商船高等専門学校, 総合教育科, 講師 (90366401)

Project Period (FY) 2004 – 2006
Project Status Completed (Fiscal Year 2006)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2006: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2005: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2004: ¥900,000 (Direct Cost: ¥900,000)
Keywordsマルコフ決定過程 / 平均期待利得 / 適応政策 / 学習アルゴリズム / 計画数学 / セミマルコフ決定過程 / 最適停止問題 / 数理計画問題 / 停止時刻
Research Abstract

本年度は、マルコフ決定過程における平均期待利得を評価基準とする最適化問題において、モデルの推移法則が未知の場合の解析手法とシミュレーションによる数値実験に取り組んだ。
具体的には、
・適応政策決定アルゴリズムの考察:
推移法則が未知であることから、システムでの状態観測情報のみによって各期での政策を決定していかなければならない。ニューロ・ダイナミック・プログラミングの視点に立ち、学習アルゴリズムとしてイプシロン強制による食欲政策(greedy policy)による評価関数と推移法則の推定について、その理論研究に取り組んだ。適切な条件のもと、提案した学習アルゴリズムによって逐次改定される価値関数の収束と適応政策の漸近的最適性を明らかにした。
・シミュレーションによる数値実験:
強化学習の分野で提案されている学習アルゴリズムについて比較検討を行うとともに、本研究での手法の妥当性を数値実験により考察した。Howardの自動車取替え問題に対しては、これまでに状態集合の部分集合に対する準最適政策を得ることを示した。また、別の実験モデルに対して、状態観測頻度による最尤推定量に基づく学習アルゴリズムを用いて評価関数の推定値の漸近的挙動を視覚化し、アルゴリズムの改良に取り組んだ。これらの過程で、コンピュータ特有の計算誤差や時間の増大化を回避するためのアルゴリズム改良の必要性が明らかになった。
また、停止構造を入れた推移法則未知のマルコフ決定過程についても、継続して今後の研究課題として取り組む。

Report

(3 results)
  • 2006 Annual Research Report
  • 2005 Annual Research Report
  • 2004 Annual Research Report
  • Research Products

    (5 results)

All 2007 2006 2005 2004

All Journal Article (5 results)

  • [Journal Article] A structured pattern matrix algorithm for multichain Markov decision processes2007

    • Author(s)
      伊喜哲一郎, 堀口正之, 蔵野正美
    • Journal Title

      Mathematical Methods of Operations Research 電子版006-138-5

      Pages: 1-11

    • Related Report
      2006 Annual Research Report
  • [Journal Article] A learning algorithm for communicating Markov decision processes with unknown transition matrices2006

    • Author(s)
      伊喜哲一郎, 堀口正之, 蔵野正美, 安田正實
    • Journal Title

      京都大学数理解析研究所講究録1477「不確実性の下での意思決定と数理モデル」 1477

      Pages: 127-135

    • NAID

      120001944229

    • Related Report
      2006 Annual Research Report
  • [Journal Article] A modified pattern matrix algorithm for multichain MDPs2006

    • Author(s)
      伊喜哲一郎, 堀口正之
    • Journal Title

      京都大学数理解析研究所講究録1504「情報決定過程論の展開」 1504

      Pages: 73-86

    • Related Report
      2006 Annual Research Report
  • [Journal Article] A structured pattern matrix algorithm for multichain Markov decision processes2005

    • Author(s)
      伊喜哲一郎, 堀口正之, 蔵野正美
    • Journal Title

      数理解析研究所講究録1461「最適化数理の手法と実際」 1461

      Pages: 202-213

    • Related Report
      2005 Annual Research Report
  • [Journal Article] Stopped semi-Markov decision processes with multiple constraints2004

    • Author(s)
      M.HORIGUCHI, M.KURANO
    • Journal Title

      Proceedings of the International Conference on Nonlinear Analysis and Convex Analysis 1

      Pages: 81-96

    • Related Report
      2004 Annual Research Report

URL: 

Published: 2004-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi