2004 Fiscal Year Annual Research Report
停止構造を持つマルコフ決定過程における数理モデルの研究
Project/Area Number |
16740060
|
Research Institution | Tokyo Denki University |
Principal Investigator |
堀口 正之 東京電機大学, 情報環境学部, 助手 (90366401)
|
Keywords | マルコフ決定過程 / セミマルコフ決定過程 / 最適停止問題 / 数理計画問題 / 計画数学 / 停止時刻 |
Research Abstract |
本研究課題について、確率的な推移時間間隔をもつセミマルコフ決定過程での最適化手法を考察した。停止時刻までの継続費用関数および停止時刻での終端利得関数について、次の二つのモデル ・システムの開始時刻から各推移の起こる時間の長さに応じて割引のある場合 ・停止するまでの総和の期待値を評価関数にもつ、割引のない場合 の制約条件付き問題を、数理計画法によるアプローチで解析できることを明らかにした。 具体的には、意思決定者が決定する停止時刻について確率的な停止の選択を可能とする停止構造(Randomized Stopping Time)と、状態と決定ごとにシステムの各期に応じた生起確率を総和して得られる占有速度(occupation measure)を、セミマルコフ過程のもとに導入した。これらを導入することにより、適切な条件下で、与えられた制約条件付き問題から数理計画問題が構成できることを示し、もとの問題と得られた数理計画問題は、一方の最適解がもう一方の最適解を与える問題として同等なことを明らかにした。また、この数理計画問題は、もとの問題の構成要素に対して適切な変形を行うことで、マルコフ決定過程における数理計画問題と同等なものであることが示され、マルコフ決定過程の問題に帰着できることを示した。数理計画問題による解決手法の理解を深めるために数値例の計算も行った。 得られた成果は、問題が単にセミマルコフ過程からマルコフ過程へ帰着されただけではなく、マルコフ過程での最適化問題について、その解析の中で生じるセミマルコフモデルにも適用でき、より柔軟な解決方法が可能になり、停止構造を持つマルコフ決定過程に関する研究範囲をさらに広げるものである。
|
Research Products
(1 results)