2008 Fiscal Year Annual Research Report
Project/Area Number |
20700208
|
Research Institution | Kyoto University |
Principal Investigator |
森 健 Kyoto University, 情報学研究科, 特定研究員 (00457144)
|
Keywords | 強化学習 / 統計的学習 |
Research Abstract |
1. 価値関数の学習 多くの強化学習法では、ある状態である行動を取ることの将来的な良さを表す「価値関数」を近似する必要がある。最も広く行われている方法は、価値関数をパラメータと基底関数の内積で表現する線形関数近似を行う方法である。 基底関数は設計者の試行錯誤により得られる。自動的に基底関数を構築する方法もあるが、非常に大きな計算コストが掛かる。本年度、価値関数の近似誤差を逐次的に減少させる近似法を提案した。この方法は、設計者の事前の試行錯誤を必要とせず、また、計算コストも小さくて済む。アルゴリズム全体の統計的な性質をクリアにして、論文化を進める。 価値関数の近似は、ある条件の下でセミパラメトリック統計学の問題であることが我々の研究で分かってきた。本年度は、セミパラメトリック統計学の一手法である推定関数法を用いて、漸近的な分散が最小になるような関数近似の方法を提案し、国際会議で発表した。次年度は応用面をさらに発展させて論文化を進める。 2. 方策の学習 強化学習は累積報酬の期待値を最大にするような方策を学習する方法である。しかし、方策の関数形について、最適性を考慮した設計はあまり行われてこなかった。我々は、統計的学習で使う動的な確率モデルを用いて方策を構築することで、累積報酬の期待値を最大にするような状態空間モデルを抽出した。この結果は国際会議で発表した。理論面をさらに発展させて論文化を進める。 非定常環境における効率の良い強化学習の研究は少ない。強化学習は定常なマルコフ決定過程に基づいて定式化されるからである。本研究では、この問題に対して比較的有望視されているモジュール型強化学習法について、最適性を考慮するように改良した。非定常環境においてより効率良く学習が進むことを示すことができ、国際会議で発表した。理論面をさらに発展させて論文化を進める。
|