研究課題/領域番号 |
08680461
|
研究機関 | 鳥取大学 |
研究代表者 |
河合 一 鳥取大学, 工学部, 教授 (50026316)
|
研究分担者 |
小柳 淳二 鳥取大学, 工学部, 助手 (90225590)
|
キーワード | マルコフ決定過程 / 時間平均コスト / 時間平均分散 / 定常政策 / 完全エルゴディック / サイクル / 制約付MDP / GA |
研究概要 |
本研究では、有限個の状態、有限個の決定をもつマルコフ決定過程(MDP)において、各定常政策の評価規範として、従来採用されている時間平均コスト(以下単に期待値と略す)に加え、政策の危険度を表現する指標としてあらたに無限期間における総コストの分散の時間平均(以下単に分散と略す)を提案し、その導出および分散制約期待値最小化問題と期待値制約分散最小化問題の解析を目的としている。 1.分散の導出...すべての政策の下でマルコフ連鎖は完全エルゴディックである場合を考える。この場合マルコフ連鎖はある状態を指定した時いわゆる再生過程をなす。はじめにコストを伴う再生過程において、時間平均分散は1サイクルにおけるコストの分散と1サイクルの期待時間の比で与えられる事を、再生型方程式及びラプラス変換を用い明らかにした。この事を用い、MDPにおける分散の導出式を連立一次方程式の形で与えた。さらに、MDPの拡張であるセミ-マルコフ決定過程に対しても、同様の解析方法で分散が導出できる事も示した。これらについては、現在投稿準備中である。 2.1制約を持つMDPのGAによる近似解法と分散、期待値最適化問題...分散制約期待値最小化問題及び期待値制約分散最小化問題は、一種の組み合わせ最適化問題であるが、その厳密解(政策)の導出は現時点では期待できない。そこで近似解法として遺伝的アルゴリズム(GA)を適用する事を考えたが、GAの効果を調べるためにも(それ自体重要な問題であるが)2種のコストを持つMDPにおける1期待値制約付きMDPにおいてGAによる解法を提唱した。この結果は、確率モデルに関する日豪ワークショップ(1996年、7月)で発表した。分散、期待値問題については、現在検討継続中である。
|