研究課題
本年度は、有限個の状態数を持つ推移法則未知のマルコフ決定過程において、平均期待利得を最大化する評価関数のもとでの時間差分法(Temporal Difference Method)による最適な適応政策の存在と学習アルゴリズムの研究を行った。具体的には、推移法則の集合族について、1.すべての状態間に互いに1期間で推移できる正の確率を持つ場合2.状態集合の、ある部分集合に属する任意の2つの状態間に互いに到達可能な道(path)のできる決定があり(communicaing class)、それ以外の補集合の状態はすべて過渡的状態(transient class)である場合について考察した。1では、各期間での評価関数について、推移法則の推定に履歴による最尤推定を用いながら、時間差分による適応型の決定の取り方として修正greedy policyを導入して適応政策の最適性を明らかにした。2の場合では、先行研究で得ているマルコフ連鎖の推移状況から推測される状態集合の構造を学習するアルゴリズムを適用し、さらに割引き利得最適化問題からの近似理論とgreedy policyを取る学習アルゴリズムにより、最適な適応政策が構成できることを明らかにした。また、その学習アルゴリズムの数値シミュレーションも行い、アルゴリズムの有効性を明らかにした。本研究成果によって、不完全な情報をもつ2つの意思決定モデルでの適応型最適政策の構成方法とその有効性を明らかにした。
すべて 2007
すべて 雑誌論文 (4件) (うち査読あり 3件) 学会発表 (2件)
Mathematical Methods of Operations Research 66
ページ: 545-555
Bulletin of Information and Cybernetics 39
ページ: 11-24
In: 4th International conference on Proceedings of Modeling Decisions for Artificial Intelligence(MDAI)2007(CD-ROM Proceedings), Vicenc Torra, Yasuo Narukawa, Yuji Yoshida (Eds.), (CD-ROM)ISBN978-84-00-08359-1
ページ: 112-122
京都大学数理解析研究所講究録1559「最適化問題における確率モデルの展開と応用」 1559
ページ: 34-49