本年度は、不確実性下でのマルコフ決定過程における学習理論として、ベイズ推定を用いた最適化手法の構築を中心に取り組んだ。 先行研究では、未知の状態推移法則の推定として、推移回数の過去の履歴から構成される相対頻度による最尤推定法を用いた場合やベイズの定理に基づく事前分布の改定 (学習) が用いられている。新たな手法として、事前知識としての区間測度からベイズ理論による推移法則の区間推定を取り入れたモデルを構成した。事前分布として、確率分布でない区間で表現された測度を導入することで、推移法則や価値関数 (Value Function) も事後解析では実数値の閉区間として表現することができ、不確実性のある意思決定モデルでの事後知識の解釈や活用について、事前分布を必ずしも一つの分布として仮定しない場合でもモデルの事前・事後解析が可能であり、先行研究のものよりも実用的なものとなったと言える。 本研究では、区間ベイズマルコフ決定過程と呼ぶ推移法則が区間で表現される意思決定モデルを提案し、この新たなマルコフ決定過程において、状態推移の履歴から推定された区間推移確率行列の連続性や収束性、価値関数の収束性などの性質を導いた。さらに、具体的な数値実験によりこのベイズ推定手法について例示した。推移法則が区間表現される意思決定モデルでの政策に関する学習理論を今後、考察するための重要な成果の一つとなった。 また、時間差分制御や適応学習理論に関するこれまでの研究成果について、ひとつの論文として総合的に取りまとめた。
|