2010 Fiscal Year Annual Research Report
帰納的強化学習の計算理論~環境の探索と帰納的再構成のベイズ推定
Project/Area Number |
20700126
|
Research Institution | The University of Tokyo |
Principal Investigator |
牧野 貴樹 東京大学, 生産技術研究所, 特任准教授 (20418651)
|
Keywords | 強化学習 / ノンパラメトリックベイズ / 逆強化学習 / 徒弟学習 / 隠れマルコフモデル / クラスタリング |
Research Abstract |
本研究では、環境の探索と帰納的再構成のためのベイズ推定技術として、以下の成果を得た。 (1)階層的構造に基づくノンパラメトリックベイズモデルの言語への応用 前年度までの研究で開発した、無限状態隠れマルコフモデルの階層的状態クラスタリングモデルを言語に応用し、単語列から品詞に相当する概念が教師なしで獲得できることを示した。この結果は、環境学習のためのモデルが、機械学習のほかの分野にも応用可能なことを示したものである。 (2)他者の行動に基づいて徒弟学習するための手法の開発 環境のモデルを学習するための手法として、逆強化学習を拡張した徒弟学習手法を提案した。自ら探索する手法とは異なり、その環境を熟知しているエキスパートの行動履歴(演示)をもとに学習する手法を提案した。従来、エキスパートの演示からの環境モデルの学習においては、エキスパートの行動に対する環境の反応のみから学習しており、エキスパートがその行動を選択した背景については学習に含めていなかった。提案手法は、これにより、探索のコストが高い領域において、従来よりも効率的に環境のモデルを獲得することが可能になった。
|