• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

帰納的強化学習の計算理論~環境の探索と帰納的再構成のベイズ推定

Research Project

Project/Area Number 20700126
Research InstitutionThe University of Tokyo

Principal Investigator

牧野 貴樹  東京大学, 生産技術研究所, 特任准教授 (20418651)

Keywords強化学習 / ノンパラメトリックベイズ / 逆強化学習 / 徒弟学習 / 隠れマルコフモデル / クラスタリング
Research Abstract

本研究では、環境の探索と帰納的再構成のためのベイズ推定技術として、以下の成果を得た。
(1)階層的構造に基づくノンパラメトリックベイズモデルの言語への応用
前年度までの研究で開発した、無限状態隠れマルコフモデルの階層的状態クラスタリングモデルを言語に応用し、単語列から品詞に相当する概念が教師なしで獲得できることを示した。この結果は、環境学習のためのモデルが、機械学習のほかの分野にも応用可能なことを示したものである。
(2)他者の行動に基づいて徒弟学習するための手法の開発
環境のモデルを学習するための手法として、逆強化学習を拡張した徒弟学習手法を提案した。自ら探索する手法とは異なり、その環境を熟知しているエキスパートの行動履歴(演示)をもとに学習する手法を提案した。従来、エキスパートの演示からの環境モデルの学習においては、エキスパートの行動に対する環境の反応のみから学習しており、エキスパートがその行動を選択した背景については学習に含めていなかった。提案手法は、これにより、探索のコストが高い領域において、従来よりも効率的に環境のモデルを獲得することが可能になった。

  • Research Products

    (4 results)

All 2012 2010

All Journal Article (2 results) Presentation (2 results)

  • [Journal Article] 部分観測環境のモデルパラメータに対する徒弟学習2012

    • Author(s)
      牧野貴樹, 竹内誉羽
    • Journal Title

      電子情報通信学会技術報告(IBISML2011-94)

      Volume: 111(480) Pages: 49-54

  • [Journal Article] ノンパラメトリックベイズに基づく統計的機械学習2010

    • Author(s)
      牧野貴樹
    • Journal Title

      電子情報通信学会技術研究報告IBISML2010-14

      Volume: 110(76) Pages: 87-94

  • [Presentation] 部分観測環境のモデルパラメータに対する徒弟学習2012

    • Author(s)
      牧野貴樹, 竹内誉羽
    • Organizer
      電子情報通信学会情報論的学習理論と機械学習研究会
    • Place of Presentation
      統計数理研究所
    • Year and Date
      2012-03-12
  • [Presentation] ノンパラメトリックベイズに基づく統計的機械学習2010

    • Author(s)
      牧野貴樹
    • Organizer
      電子情報通信学会情報論的学習理論と機械学習研究会
    • Place of Presentation
      東京大学武田ホール
    • Year and Date
      2010-06-15

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi