• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 研究成果報告書

帰納的強化学習の計算理論~環境の探索と帰納的再構成のベイズ推定

研究課題

  • PDF
研究課題/領域番号 20700126
研究種目

若手研究(B)

配分区分補助金
研究分野 知能情報学
研究機関東京大学

研究代表者

牧野 貴樹  東京大学, 生産技術研究所, 特任准教授 (20418651)

研究期間 (年度) 2008 – 2010
キーワード強化学習 / Restricted Collapsed Draws / ベイズ推論 / 徒弟学習 / 無限隠れマルコフモデル / クラスタリング / 中華料理店過程 / TD-Network
研究概要

強化学習における環境の探索と帰納的再構成を、ベイズ推論手法に基づいて再構築する研究を行った。強化学習においては、エージェントは試行錯誤しながら環境モデルを学習するが、ベイズ理論に基づいた適切な環境モデルがあれば、不確実性を表現することで最適な探索が実現できるはずである。この目的のために、本研究では、TD-Network と呼ばれる予測的状態表現に基づく環境記述手法について、学習能力を高める提案を行った。また、隠れマルコフモデルのノンパラメトリックベイズモデルを拡張し、隠れ状態の階層的クラスタリングを実現する方法を提案した。さらに、徒弟学習の枠組みを応用し、他者の行動から環境についてのモデルをベイズ推定に基づいて構築する手法を提案した。これらは環境を探索しながら再構成してゆくプロセスのベイズ的再構成に必要となる要素技術である。

  • 研究成果

    (19件)

すべて 2012 2011 2010 2009 2008 その他

すべて 雑誌論文 (7件) (うち査読あり 5件) 学会発表 (9件) 図書 (2件) 備考 (1件)

  • [雑誌論文] Apprenticeship learning for model parameters of partially observable environments2012

    • 著者名/発表者名
      Takaki Makino and Johane Takeuchi
    • 雑誌名

      To be appeared in ICML '12: Proceedings of the 29th Annual international conference on machine learning

    • 査読あり
  • [雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012

    • 著者名/発表者名
      牧野貴樹, 竹内誉羽
    • 雑誌名

      信学技報

      巻: Vol.111, No.480 ページ: 49-54

  • [雑誌論文] 強化学習(私のブックマーク)2011

    • 著者名/発表者名
      牧野貴樹
    • 雑誌名

      人工知能学会誌

      巻: Vol.26, No.3 ページ: 301-303

  • [雑誌論文] 利他的行動と再帰的他者推定2010

    • 著者名/発表者名
      牧野貴樹, 滝久雄, 合原一幸
    • 雑誌名

      生産研究

      巻: Vol.62, No.3 ページ: 259-265

    • 査読あり
  • [雑誌論文] Cultural neuroeconomics of intertemporal choice2009

    • 著者名/発表者名
      Taiki Takahashi, Tarik Hadzibeganovic, Sergio A. Cannas, Takaki Makino, Hiroki Fukui, and Shinobu Kitayama
    • 雑誌名

      Neuroendocrinology Letters

      巻: Vol.30, No.2 ページ: 185-191

    • 査読あり
  • [雑誌論文] Proto-predictive representation of states with simple recurrent temporal-difference networks2009

    • 著者名/発表者名
      Takaki Makino
    • 雑誌名

      In Leon Bottou and Michael Littman, editors, ICML '09 : Proceedings of the 26th Annual international conference on machine learning

      巻: vol.26 ページ: 697-704

    • 査読あり
  • [雑誌論文] On-line discovery of temporal-difference networks2008

    • 著者名/発表者名
      Takaki Makino and Toshihisa Takagi
    • 雑誌名

      In Andrew McCallum and Sam Roweis, editors, ICML '08 : Proceedings of the 25th Annual International Conference on Machine Learning

      巻: vol.25 ページ: 632-639

    • 査読あり
  • [学会発表] Hierarchical Nested Infinite Hidden Markov Models2012

    • 著者名/発表者名
      Takaki Makino
    • 学会等名
      Bayesian Inference and Stochastic Computation 2012 workshop
    • 発表場所
      立川市
    • 年月日
      2012-06-22
  • [学会発表] Learning model parameters of partially observable markov decision process from demonstration2012

    • 著者名/発表者名
      Takaki Makino and Johane Takeuchi
    • 学会等名
      In Proc. Of the 2nd International Symposium on Innovative Mathematical Modeling
    • 発表場所
      東京
    • 年月日
      2012-05-13
  • [学会発表] Slice sampling for chinese restaurant process2010

    • 著者名/発表者名
      Takaki Makino
    • 学会等名
      In Proc. Of the 2nd Asian Conference on Machine Learning (ACML 2010)
    • 発表場所
      Tokyo
    • 年月日
      2010-11-08
  • [学会発表] ノンパラメトリックベイズに基づく統計的機械学習2010

    • 著者名/発表者名
      牧野貴樹
    • 学会等名
      電子情報通信学会技術研究報告IBISML2010-14,電子情報通信学会
    • 発表場所
      東京
    • 年月日
      2010-06-15
  • [学会発表] 階層状態無限隠れマルコフモデル2009

    • 著者名/発表者名
      牧野貴樹
    • 学会等名
      情報論的学習理論 (IBIS2009)ポスター発表
    • 発表場所
      福岡市
    • 年月日
      2009-10-20
  • [学会発表] Probabilistic discounting for modeling behaviors in Iowa gambling task2009

    • 著者名/発表者名
      Takaki Makino, Taiki Takahashi, Hirofumi Nishinaka, and Hiroki Fukui
    • 学会等名
      In Proceedings of Multi-disciplinary Symposium on Reinforcement Learning (MSRL2009)
    • 発表場所
      Montreal, Canada
    • 年月日
      2009-06-18
  • [学会発表] Simple recurrent temporal-difference networks2008

    • 著者名/発表者名
      Takaki Makino
    • 学会等名
      情報論的学習理論ワークショップ (IBIS2008)
    • 発表場所
      仙台市
    • 年月日
      2008-10-29
  • [学会発表] 自己観測原理 : 他者認知の数理的枠組2008

    • 著者名/発表者名
      牧野貴樹, 合原一幸
    • 学会等名
      第22回人工知能学会全国大会
    • 発表場所
      旭川市
    • 年月日
      2008-06-13
  • [学会発表] POMDP環境中でのTD-networkの自動獲得 : 単純再帰構造による拡張2008

    • 著者名/発表者名
      牧野貴樹
    • 学会等名
      第22回人工知能学会全国大会
    • 発表場所
      旭川市
    • 年月日
      2008-06-13
  • [図書] コミュニケーションの自己組織化. 国武豊喜 (監修), 自己組織化ハンドブック2009

    • 著者名/発表者名
      牧野貴樹
    • 総ページ数
      438-443
    • 出版者
      NTS出版
  • [図書] Employing delay and probability discounting frameworks for a neuroeconomic understanding of gambling behavior. In M. J. Esposito, editor, Psychology of Gambling2008

    • 著者名/発表者名
      Taiki Takahashi, Takaki Makino, Yu Ohmura, and Hiroki Fukui
    • 総ページ数
      67-82
    • 出版者
      Nova Science
  • [備考]

    • URL

      http://www.sat.t.u-tokyo.ac.jp/~mak/

URL: 

公開日: 2013-07-31  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi