2010 年度実績報告書

帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

研究課題

研究課題/領域番号	20700126
研究機関	東京大学
研究代表者	牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)
キーワード	強化学習 / ノンパラメトリックベイズ / 逆強化学習 / 徒弟学習 / 隠れマルコフモデル / クラスタリング
研究概要	本研究では、環境の探索と帰納的再構成のためのベイズ推定技術として、以下の成果を得た。 (1)階層的構造に基づくノンパラメトリックベイズモデルの言語への応用前年度までの研究で開発した、無限状態隠れマルコフモデルの階層的状態クラスタリングモデルを言語に応用し、単語列から品詞に相当する概念が教師なしで獲得できることを示した。この結果は、環境学習のためのモデルが、機械学習のほかの分野にも応用可能なことを示したものである。 (2)他者の行動に基づいて徒弟学習するための手法の開発環境のモデルを学習するための手法として、逆強化学習を拡張した徒弟学習手法を提案した。自ら探索する手法とは異なり、その環境を熟知しているエキスパートの行動履歴(演示)をもとに学習する手法を提案した。従来、エキスパートの演示からの環境モデルの学習においては、エキスパートの行動に対する環境の反応のみから学習しており、エキスパートがその行動を選択した背景については学習に含めていなかった。提案手法は、これにより、探索のコストが高い領域において、従来よりも効率的に環境のモデルを獲得することが可能になった。

研究成果
(4件)

すべて 2012 2010

すべて雑誌論文 (2件) 学会発表 (2件)

[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012
- 著者名/発表者名
  牧野貴樹, 竹内誉羽
- 雑誌名
  
  電子情報通信学会技術報告(IBISML2011-94)
  
  巻: 111(480) ページ: 49-54
[雑誌論文] ノンパラメトリックベイズに基づく統計的機械学習2010
- 著者名/発表者名
  牧野貴樹
- 雑誌名
  
  電子情報通信学会技術研究報告IBISML2010-14
  
  巻: 110(76) ページ: 87-94
[学会発表] 部分観測環境のモデルパラメータに対する徒弟学習2012
- 著者名/発表者名
  牧野貴樹, 竹内誉羽
- 学会等名
  電子情報通信学会情報論的学習理論と機械学習研究会
- 発表場所
  統計数理研究所
- 年月日
  2012-03-12
[学会発表] ノンパラメトリックベイズに基づく統計的機械学習2010
- 著者名/発表者名
  牧野貴樹
- 学会等名
  電子情報通信学会情報論的学習理論と機械学習研究会
- 発表場所
  東京大学武田ホール
- 年月日
  2010-06-15

2010 年度 実績報告書

帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

研究代表者

牧野 貴樹 東京大学, 生産技術研究所, 特任准教授 (20418651)

研究成果

[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012

著者名/発表者名

雑誌名

[雑誌論文] ノンパラメトリックベイズに基づく統計的機械学習2010

著者名/発表者名

雑誌名

[学会発表] 部分観測環境のモデルパラメータに対する徒弟学習2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ノンパラメトリックベイズに基づく統計的機械学習2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)