2005 Fiscal Year Annual Research Report
停止構造を持つマルコフ決定過程における数理モデルの研究
Project/Area Number |
16740060
|
Research Institution | Tokyo Denki University |
Principal Investigator |
堀口 正之 東京電機大学, 情報環境学部, 助手 (90366401)
|
Keywords | マルコフ決定過程 / セミマルコフ決定過程 / 最適停止問題 / 数理計画問題 / 計画数学 / 停止時刻 |
Research Abstract |
本年度は、停止構造を持つセミマルコフ決定過程において、停止時刻までの総期待コストを制約条件としてもつモデルでの主問題を数理計画問題に同値変形し解析する方法について、国際会議IFORS2005において研究成果の口頭発表を行った。セミマルコフ決定過程の問題を、数理計画問題として構成することでコンピューターによる解析も可能となり、実用上の最適化問題への適用について研究する道を開いた。 また、単位時間当たりの平均期待利得を評価基準とするモデルの考察として、以下の3つについて共同研究として取り組んだ。 ・多重連鎖を持つマルコフ決定過程における最適化アルゴリズムについて、先行研究として知られる政策反復法での解の次元を原因とする計算困難な問題に対処するため、状態集合をある条件に従って分割した後にvalue iterationを行う最適化アルゴリズムと数値例について考察した。状態集合の分割の程度に依存はするが、従来の政策反復法に比べて計算量の負荷が軽減されることを示した。 ・互いに到達可能な状態集合をもつ推移確率行列未知のマルコフ決定過程における学習アルゴリズムについて、システムでの状態推移の観測をもとに最尤推定値を使ってreward-penalty typeと呼ばれる適応政策を構成する手法の考察と、その適応政策が漸近的に最適値を与えるという理論の実証のための数値実験を行った。 ・多重連鎖を持つマルコフ決定過程における最適化アルゴリズムの改良として、状態集合を分割して得られるそれぞれの部分マルコフ決定過程にもvalue iterationを適用する最適化アルゴリズムを構成し計算量の改善に取り組んだ。
|