2007 Fiscal Year Annual Research Report
Project/Area Number |
19740060
|
Research Institution | Yuge National College of Maritime Technology |
Principal Investigator |
堀口 正之 Yuge National College of Maritime Technology, 総合教育科, 准教授 (90366401)
|
Keywords | マルコフ決定過程 / 計画数学 / 適応政策 / 学習理論 |
Research Abstract |
本年度は、有限個の状態数を持つ推移法則未知のマルコフ決定過程において、平均期待利得を最大化する評価関数のもとでの時間差分法(Temporal Difference Method)による最適な適応政策の存在と学習アルゴリズムの研究を行った。具体的には、推移法則の集合族について、 1.すべての状態間に互いに1期間で推移できる正の確率を持つ場合 2.状態集合の、ある部分集合に属する任意の2つの状態間に互いに到達可能な道(path)のできる決定があり(communicaing class)、それ以外の補集合の状態はすべて過渡的状態(transient class)である場合 について考察した。1では、各期間での評価関数について、推移法則の推定に履歴による最尤推定を用いながら、時間差分による適応型の決定の取り方として修正greedy policyを導入して適応政策の最適性を明らかにした。2の場合では、先行研究で得ているマルコフ連鎖の推移状況から推測される状態集合の構造を学習するアルゴリズムを適用し、さらに割引き利得最適化問題からの近似理論とgreedy policyを取る学習アルゴリズムにより、最適な適応政策が構成できることを明らかにした。また、その学習アルゴリズムの数値シミュレーションも行い、アルゴリズムの有効性を明らかにした。 本研究成果によって、不完全な情報をもつ2つの意思決定モデルでの適応型最適政策の構成方法とその有効性を明らかにした。
|
Research Products
(6 results)