2008 Fiscal Year Annual Research Report

統計的学習に基づく強化学習に関する研究

Research Project

Project/Area Number	20700208
Research Institution	Kyoto University
Principal Investigator	森健 Kyoto University, 情報学研究科, 特定研究員 (00457144)
Keywords	強化学習 / 統計的学習
Research Abstract	1. 価値関数の学習多くの強化学習法では、ある状態である行動を取ることの将来的な良さを表す「価値関数」を近似する必要がある。最も広く行われている方法は、価値関数をパラメータと基底関数の内積で表現する線形関数近似を行う方法である。基底関数は設計者の試行錯誤により得られる。自動的に基底関数を構築する方法もあるが、非常に大きな計算コストが掛かる。本年度、価値関数の近似誤差を逐次的に減少させる近似法を提案した。この方法は、設計者の事前の試行錯誤を必要とせず、また、計算コストも小さくて済む。アルゴリズム全体の統計的な性質をクリアにして、論文化を進める。価値関数の近似は、ある条件の下でセミパラメトリック統計学の問題であることが我々の研究で分かってきた。本年度は、セミパラメトリック統計学の一手法である推定関数法を用いて、漸近的な分散が最小になるような関数近似の方法を提案し、国際会議で発表した。次年度は応用面をさらに発展させて論文化を進める。 2. 方策の学習強化学習は累積報酬の期待値を最大にするような方策を学習する方法である。しかし、方策の関数形について、最適性を考慮した設計はあまり行われてこなかった。我々は、統計的学習で使う動的な確率モデルを用いて方策を構築することで、累積報酬の期待値を最大にするような状態空間モデルを抽出した。この結果は国際会議で発表した。理論面をさらに発展させて論文化を進める。非定常環境における効率の良い強化学習の研究は少ない。強化学習は定常なマルコフ決定過程に基づいて定式化されるからである。本研究では、この問題に対して比較的有望視されているモジュール型強化学習法について、最適性を考慮するように改良した。非定常環境においてより効率良く学習が進むことを示すことができ、国際会議で発表した。理論面をさらに発展させて論文化を進める。

Research Products
(4 results)

All 2008 Other

All Presentation (3 results) Remarks (1 results)

[Presentation] A continuous internal-state controller for partially observable Markov decision processes2008
- Author(s)
  Yuki Taniguchi
- Organizer
  International Conference on Artificial Neural Networks
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2008-09-04
[Presentation] Self-organized reinforcement learning based on policy gradient in nonstationary environment2008
- Author(s)
  Yu Hiei
- Organizer
  International Conference on Artificial Neural Networks
- Place of Presentation
  Prague, Czech Republic
- Year and Date
  2008-09-03
[Presentation] A semiparametric statistical approach to model-free policy evaluation2008
- Author(s)
  Tsuyoshi Ueno
- Organizer
  International Conference on Machine Learning
- Place of Presentation
  Helsinki, Finland
- Year and Date
  2008-07-06
[Remarks]
- URL
  http://hawaii.sys.i.kyoto-u.ac.jp/~tak-mori/

2008 Fiscal Year Annual Research Report

統計的学習に基づく強化学習に関する研究

Principal Investigator

森 健 Kyoto University, 情報学研究科, 特定研究員 (00457144)

Research Products

[Presentation] A continuous internal-state controller for partially observable Markov decision processes2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Self-organized reinforcement learning based on policy gradient in nonstationary environment2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A semiparametric statistical approach to model-free policy evaluation2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks]

URL

森健 Kyoto University, 情報学研究科, 特定研究員 (00457144)