2009 Fiscal Year Annual Research Report
Project/Area Number |
09J04237
|
Research Institution | Kyoto University |
Principal Investigator |
植野 剛 Kyoto University, 情報学研究科, 特別研究員(DC2)
|
Keywords | 強化学習 / 方策評価 / セミパラメトリックモデル / 推定関数 |
Research Abstract |
今年度は,モデルフリー方策評価法とセミパラメトリック統計推論の類似性に着目し,モデルフリー方策評価問題をセミパラメトリックモデルとその推定手法,推定関数法を用いて統計推論問題として再定式化し,方策評価アルゴリズムの統計的性質を解析した.解析を通じて方策評価法における3つの従来知られていなかった重要な成果を得た. 1.今までに開発された全てのモデルフリー方策評価アルゴリズムを推定関数により一般化した. 2.その推定関数による推定量を漸近解析することで,全てのモデルフリー方策評価アルゴリズムの統計的性質を明らかにした.またその解析結果を元に,異なるアルゴリズム間の推定精度の比較を可能にした. 3.解析結果より,学習速度が最速であるアルゴリズムを導出した.
|
Research Products
(3 results)