2009 Fiscal Year Annual Research Report
帰納的強化学習の計算理論~環境の探索と帰納的再構成のベイズ推定
Project/Area Number |
20700126
|
Research Institution | The University of Tokyo |
Principal Investigator |
牧野 貴樹 The University of Tokyo, 総括プロジェクト機構, 特任助教 (20418651)
|
Keywords | 強化学習 / ノンパラメトリックベイズ / 隠れマルコフモデル / 階層的クラスタリング / 中華料理店過程 / サンプリング法 |
Research Abstract |
今年度は、ノンパラメトリックベイズモデルを利用した強化学習研究のための拡張のステップとして2つの研究を行った。ひとつは、隠れマルコフモデル(HMM)における状態を階層的にクラスタリングする手法である。研究においては自然言語を対象にしてモデルの正当性を示したが、同様のモデルは、強化学習で扱うような複雑な環境をより効果的に学習するために有効な方法のひとつであると考えられる。もうひとつはHMMのノンパラメトリックベイズモデルのような、階層化された中華料理店過程からの複数の抽出の同時分布を適切に扱うためのサンプリング法の開発である。この方法により、より複雑なモデルを構築した場合でも適切なモデル推定が可能になることから、今後、ノンパラメトリックベイズ手法による強化学習を実現する際に有効であると考えられる。
|