2010 Fiscal Year Annual Research Report
Project/Area Number |
09J04237
|
Research Institution | Kyoto University |
Principal Investigator |
植野 剛 京都大学, 情報学研究科, 特別研究員(DC2)
|
Keywords | 強化学習 / セミパラメトリックモデル / 推定関数 / 方策評価 / リスク解析 |
Research Abstract |
主に2つの実績を挙げた。いずれの実績においても,これまで明らかにされていなかった強化学習における価値関数推定の統計的性質を解明した点に主な意義と重要性である.1つめの実績は、セミパラメトリック統計による価値関数推定の統計的解釈である。システムを同定することなく、価値関数推定を行うモデルフリー型方策評価は、数理統計の立場からセミパラメトリックモデルのパラメータ推定問題として再定式化できる。セミパラメトリックモデルのパラメータ推定の一致推定量は推定関数法によって行われる。この研究では、推定関数に成り得る一般的な関数クラスを特定することで、モデルフリー方策評価において、一致推定量と成り得る推定量のクラスを特定した。また、そのクラスの漸近解析を通して、最小のパラメータ推定分散を実現する推定量を特定した。もうひとつの実績は、セミパラメトリックによる方策評価の枠組みを拡張し、推定した価値関数と真の価値関数との平均二乗誤差解析をリスクとしたリスク解析を行った。リスク解析をする場合、パラメータの推定誤差だけでなく,価値関数のモデルの近似誤差を評価する必要性がある。リスク解析より、ブートストラップを利用した推定量とモンテカルロを利用した推定量を比較した結果、モデルが正しい場合、ブートストラップを利用した推定量が、モンテカルロを利用した推定量の方より小さい平均二乗誤差を実現できるが、モデルが間違っている場合、モンテカルロによる推定量の方がより小さい平均二乗誤差を実現できることが分かった。
|
Research Products
(3 results)