2010 Fiscal Year Annual Research Report

強化学習の統計学習による洗練化

Research Project

Project/Area Number	09J04237
Research Institution	Kyoto University
Principal Investigator	植野剛京都大学, 情報学研究科, 特別研究員(DC2)
Keywords	強化学習 / セミパラメトリックモデル / 推定関数 / 方策評価 / リスク解析
Research Abstract	主に2つの実績を挙げた。いずれの実績においても,これまで明らかにされていなかった強化学習における価値関数推定の統計的性質を解明した点に主な意義と重要性である.1つめの実績は、セミパラメトリック統計による価値関数推定の統計的解釈である。システムを同定することなく、価値関数推定を行うモデルフリー型方策評価は、数理統計の立場からセミパラメトリックモデルのパラメータ推定問題として再定式化できる。セミパラメトリックモデルのパラメータ推定の一致推定量は推定関数法によって行われる。この研究では、推定関数に成り得る一般的な関数クラスを特定することで、モデルフリー方策評価において、一致推定量と成り得る推定量のクラスを特定した。また、そのクラスの漸近解析を通して、最小のパラメータ推定分散を実現する推定量を特定した。もうひとつの実績は、セミパラメトリックによる方策評価の枠組みを拡張し、推定した価値関数と真の価値関数との平均二乗誤差解析をリスクとしたリスク解析を行った。リスク解析をする場合、パラメータの推定誤差だけでなく,価値関数のモデルの近似誤差を評価する必要性がある。リスク解析より、ブートストラップを利用した推定量とモンテカルロを利用した推定量を比較した結果、モデルが正しい場合、ブートストラップを利用した推定量が、モンテカルロを利用した推定量の方より小さい平均二乗誤差を実現できるが、モデルが間違っている場合、モンテカルロによる推定量の方がより小さい平均二乗誤差を実現できることが分かった。

Research Products

(3 results)

All 2011 2010 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

[Journal Article] Generalized TD Learning
- Author(s)
  Ueno, T, Maeda, S., Kawanabe, M, Shin Ishii
- Journal Title
  
  Journal of Machine Learning Research
  
  Volume: (掲載確定)
- Peer Reviewed
[Presentation] 価値関数推定におけるMSE解析2011
- Author(s)
  植野剛
- Organizer
  情報論的学習理論ワークショップ
- Place of Presentation
  東京大学駒場キャンパス
- Year and Date
  2011-11-04
[Presentation] セミパラメトリック統計学の視点からのTD学習の一般化2010
- Author(s)
  植野剛, 前田新一, 川鍋一晃、石井信
- Organizer
  情報論的学習理論と機械学習研究会
- Place of Presentation
  東京大学本郷キャンパス
- Year and Date
  2010-06-15

2010 Fiscal Year Annual Research Report

強化学習の統計学習による洗練化

Principal Investigator

植野 剛 京都大学, 情報学研究科, 特別研究員(DC2)

Research Products

[Journal Article] Generalized TD Learning

Author(s)

Journal Title

[Presentation] 価値関数推定におけるMSE解析2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] セミパラメトリック統計学の視点からのTD学習の一般化2010

Author(s)

Organizer

Place of Presentation

Year and Date

植野剛京都大学, 情報学研究科, 特別研究員(DC2)