2010 Fiscal Year Annual Research Report

帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

Research Project

Project/Area Number	20700126
Research Institution	The University of Tokyo
Principal Investigator	牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)
Keywords	強化学習 / ノンパラメトリックベイズ / 逆強化学習 / 徒弟学習 / 隠れマルコフモデル / クラスタリング
Research Abstract	本研究では、環境の探索と帰納的再構成のためのベイズ推定技術として、以下の成果を得た。 (1)階層的構造に基づくノンパラメトリックベイズモデルの言語への応用前年度までの研究で開発した、無限状態隠れマルコフモデルの階層的状態クラスタリングモデルを言語に応用し、単語列から品詞に相当する概念が教師なしで獲得できることを示した。この結果は、環境学習のためのモデルが、機械学習のほかの分野にも応用可能なことを示したものである。 (2)他者の行動に基づいて徒弟学習するための手法の開発環境のモデルを学習するための手法として、逆強化学習を拡張した徒弟学習手法を提案した。自ら探索する手法とは異なり、その環境を熟知しているエキスパートの行動履歴(演示)をもとに学習する手法を提案した。従来、エキスパートの演示からの環境モデルの学習においては、エキスパートの行動に対する環境の反応のみから学習しており、エキスパートがその行動を選択した背景については学習に含めていなかった。提案手法は、これにより、探索のコストが高い領域において、従来よりも効率的に環境のモデルを獲得することが可能になった。

Research Products
(4 results)

All 2012 2010

All Journal Article (2 results) Presentation (2 results)

[Journal Article] 部分観測環境のモデルパラメータに対する徒弟学習2012
- Author(s)
  牧野貴樹, 竹内誉羽
- Journal Title
  
  電子情報通信学会技術報告(IBISML2011-94)
  
  Volume: 111(480) Pages: 49-54
[Journal Article] ノンパラメトリックベイズに基づく統計的機械学習2010
- Author(s)
  牧野貴樹
- Journal Title
  
  電子情報通信学会技術研究報告IBISML2010-14
  
  Volume: 110(76) Pages: 87-94
[Presentation] 部分観測環境のモデルパラメータに対する徒弟学習2012
- Author(s)
  牧野貴樹, 竹内誉羽
- Organizer
  電子情報通信学会情報論的学習理論と機械学習研究会
- Place of Presentation
  統計数理研究所
- Year and Date
  2012-03-12
[Presentation] ノンパラメトリックベイズに基づく統計的機械学習2010
- Author(s)
  牧野貴樹
- Organizer
  電子情報通信学会情報論的学習理論と機械学習研究会
- Place of Presentation
  東京大学武田ホール
- Year and Date
  2010-06-15

2010 Fiscal Year Annual Research Report

帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

Principal Investigator

牧野 貴樹 東京大学, 生産技術研究所, 特任准教授 (20418651)

Research Products

[Journal Article] 部分観測環境のモデルパラメータに対する徒弟学習2012

Author(s)

Journal Title

[Journal Article] ノンパラメトリックベイズに基づく統計的機械学習2010

Author(s)

Journal Title

[Presentation] 部分観測環境のモデルパラメータに対する徒弟学習2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ノンパラメトリックベイズに基づく統計的機械学習2010

Author(s)

Organizer

Place of Presentation

Year and Date

牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)