帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

研究課題

研究課題/領域番号	20700126
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	東京大学
研究代表者	牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)
研究期間 (年度)	2008 – 2010
研究課題ステータス	完了 (2010年度)
配分額 *注記	2,340千円 (直接経費: 1,800千円、間接経費: 540千円) 2010年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2009年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2008年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
キーワード	強化学習 / Restricted Collapsed Draws / ベイズ推論 / 徒弟学習 / 無限隠れマルコフモデル / クラスタリング / 中華料理店過程 / TD-Network / ノンパラメトリックベイズ / 逆強化学習 / 隠れマルコフモデル / 階層的クラスタリング / サンプリング法 / ベイズ推定 / 部分観測マルコフ決定過程 / 予測的状態表現 / エルマンネット
研究概要	強化学習における環境の探索と帰納的再構成を、ベイズ推論手法に基づいて再構築する研究を行った。強化学習においては、エージェントは試行錯誤しながら環境モデルを学習するが、ベイズ理論に基づいた適切な環境モデルがあれば、不確実性を表現することで最適な探索が実現できるはずである。この目的のために、本研究では、TD-Network と呼ばれる予測的状態表現に基づく環境記述手法について、学習能力を高める提案を行った。また、隠れマルコフモデルのノンパラメトリックベイズモデルを拡張し、隠れ状態の階層的クラスタリングを実現する方法を提案した。さらに、徒弟学習の枠組みを応用し、他者の行動から環境についてのモデルをベイズ推定に基づいて構築する手法を提案した。これらは環境を探索しながら再構成してゆくプロセスのベイズ的再構成に必要となる要素技術である。

報告書

(4件)

研究成果
(33件)

すべて 2012 2011 2010 2009 2008 その他

すべて雑誌論文 (13件) (うち査読あり 9件) 学会発表 (17件) 図書 (2件) 備考 (1件)

[雑誌論文] Apprenticeship learning for model parameters of partially observable environments2012
- 著者名/発表者名
  Takaki Makino and Johane Takeuchi
- 雑誌名
  
  To be appeared in ICML '12: Proceedings of the 29th Annual international conference on machine learning
- NAID
  110009545975
- 関連する報告書
  2010 研究成果報告書
- 査読あり
[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012
- 著者名/発表者名
  牧野貴樹, 竹内誉羽
- 雑誌名
  
  信学技報
  
  巻: Vol.111, No.480 ページ: 49-54
- NAID
  110009545975
- 関連する報告書
  2010 研究成果報告書
[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012
- 著者名/発表者名
  牧野貴樹, 竹内誉羽
- 雑誌名
  
  電子情報通信学会技術報告(IBISML2011-94)
  
  巻: 111(480) ページ: 49-54
- NAID
  110009545975
- 関連する報告書
  2010 実績報告書
[雑誌論文] 強化学習(私のブックマーク)2011
- 著者名/発表者名
  牧野貴樹
- 雑誌名
  
  人工知能学会誌
  
  巻: Vol.26, No.3 ページ: 301-303
- NAID
  110008662160
- 関連する報告書
  2010 研究成果報告書
[雑誌論文] 利他的行動と再帰的他者推定2010
- 著者名/発表者名
  牧野貴樹, 滝久雄, 合原一幸
- 雑誌名
  
  生産研究
  
  巻: Vol.62, No.3 ページ: 259-265
- NAID
  130000342806
- 関連する報告書
  2010 研究成果報告書
- 査読あり
[雑誌論文] ノンパラメトリックベイズに基づく統計的機械学習2010
- 著者名/発表者名
  牧野貴樹
- 雑誌名
  
  電子情報通信学会技術研究報告IBISML2010-14
  
  巻: 110(76) ページ: 87-94
- NAID
  110008096185
- 関連する報告書
  2010 実績報告書
[雑誌論文] Cultural neuroeconomics of intertemporal choice2009
- 著者名/発表者名
  Taiki Takahashi, Tarik Hadzibeganovic, Sergio A. Cannas, Takaki Makino, Hiroki Fukui, and Shinobu Kitayama
- 雑誌名
  
  Neuroendocrinology Letters
  
  巻: Vol.30, No.2 ページ: 185-191
- NAID
  130004959898
- 関連する報告書
  2010 研究成果報告書
- 査読あり
[雑誌論文] Proto-predictive representation of states with simple recurrent temporal-difference networks2009
- 著者名/発表者名
  Takaki Makino
- 雑誌名
  
  In Leon Bottou and Michael Littman, editors, ICML '09 : Proceedings of the 26th Annual international conference on machine learning
  
  巻: vol.26 ページ: 697-704
- 関連する報告書
  2010 研究成果報告書
- 査読あり
[雑誌論文] Proto-predictive representation of states with simple recurrent temporal-difference networks2009
- 著者名/発表者名
  牧野貴樹
- 雑誌名
  
  Proceedings of the 26th Annual international conference on machine learning 26
  
  ページ: 697-704
- 関連する報告書
  2009 実績報告書
- 査読あり
[雑誌論文] コミュニケーションの自己組織化2009
- 著者名/発表者名
  牧野貴樹
- 雑誌名
  
  自己組織化ハンドブック(NTS出版)
  
  ページ: 438-443
- 関連する報告書
  2009 実績報告書
- 査読あり
[雑誌論文] Proto-Predictive Representation of States with Simple Recurrent Temporal-Difference Networks2009
- 著者名/発表者名
  Takaki Makino
- 雑誌名
  
  Proceedings of the 26th International Conference of Machine Learning (ICML 2009) (印刷中)(掲載確定)
- 関連する報告書
  2008 実績報告書
- 査読あり
[雑誌論文] On-line discovery of temporal-difference networks2008
- 著者名/発表者名
  Takaki Makino and Toshihisa Takagi
- 雑誌名
  
  In Andrew McCallum and Sam Roweis, editors, ICML '08 : Proceedings of the 25th Annual International Conference on Machine Learning
  
  巻: vol.25 ページ: 632-639
- 関連する報告書
  2010 研究成果報告書
- 査読あり
[雑誌論文] On-line Discovery of Temporal-Difference Networks2008
- 著者名/発表者名
  Takaki Makino and Toshihisa Takegi
- 雑誌名
  
  Proceedings of the 25th International Conference of Machine Learning (ICML 2008)
  
  ページ: 632-639
- 関連する報告書
  2008 実績報告書
- 査読あり
[学会発表] Hierarchical Nested Infinite Hidden Markov Models2012
- 著者名/発表者名
  Takaki Makino
- 学会等名
  Bayesian Inference and Stochastic Computation 2012 workshop
- 発表場所
  立川市
- 年月日
  2012-06-22
- 関連する報告書
  2010 研究成果報告書
[学会発表] Learning model parameters of partially observable markov decision process from demonstration2012
- 著者名/発表者名
  Takaki Makino and Johane Takeuchi
- 学会等名
  In Proc. Of the 2nd International Symposium on Innovative Mathematical Modeling
- 発表場所
  東京
- 年月日
  2012-05-13
- 関連する報告書
  2010 研究成果報告書
[学会発表] 部分観測環境のモデルパラメータに対する徒弟学習2012
- 著者名/発表者名
  牧野貴樹, 竹内誉羽
- 学会等名
  電子情報通信学会情報論的学習理論と機械学習研究会
- 発表場所
  統計数理研究所
- 年月日
  2012-03-12
- 関連する報告書
  2010 実績報告書
[学会発表] Slice sampling for chinese restaurant process2010
- 著者名/発表者名
  Takaki Makino
- 学会等名
  In Proc. Of the 2nd Asian Conference on Machine Learning (ACML 2010)
- 発表場所
  Tokyo
- 年月日
  2010-11-08
- 関連する報告書
  2010 研究成果報告書
[学会発表] ノンパラメトリックベイズに基づく統計的機械学習2010
- 著者名/発表者名
  牧野貴樹
- 学会等名
  電子情報通信学会技術研究報告IBISML2010-14,電子情報通信学会
- 発表場所
  東京
- 年月日
  2010-06-15
- 関連する報告書
  2010 研究成果報告書
[学会発表] ノンパラメトリックベイズに基づく統計的機械学習2010
- 著者名/発表者名
  牧野貴樹
- 学会等名
  電子情報通信学会情報論的学習理論と機械学習研究会
- 発表場所
  東京大学武田ホール
- 年月日
  2010-06-15
- 関連する報告書
  2010 実績報告書
[学会発表] 隠れマルコフモデルのノンパラメトリックベイズ推定とMCMC法2010
- 著者名/発表者名
  牧野貴樹
- 学会等名
  研究会『マルコフ連鎖モンテカルロ法とその周辺』
- 発表場所
  統計数理研究所(立川市)
- 年月日
  2010-02-21
- 関連する報告書
  2009 実績報告書
[学会発表] Conditional simultaneous draws from hierarchical chinese restaurant processes2009
- 著者名/発表者名
  Takaki Makino, Shunsuke Takei, Daichi Mochihashi, Issei Sato, Toshihisa Takagi
- 学会等名
  Nonparametric Bayes Workshop at NIPS 2009(NPBayes 2009)
- 発表場所
  Whistler, BC, Canada
- 年月日
  2009-12-11
- 関連する報告書
  2009 実績報告書
[学会発表] 階層状態無限隠れマルコフモデル2009
- 著者名/発表者名
  牧野貴樹
- 学会等名
  情報論的学習理論 (IBIS2009)ポスター発表
- 発表場所
  福岡市
- 年月日
  2009-10-20
- 関連する報告書
  2010 研究成果報告書
[学会発表] ベイズ確率文脈自由文法のための高速構文木サンプリング法2009
- 著者名/発表者名
  武井俊祐, 牧野貴樹, 高木利久
- 学会等名
  情報論的学習理論(IBIS)2009
- 発表場所
  九州大学(福岡市)
- 年月日
  2009-10-19
- 関連する報告書
  2009 実績報告書
[学会発表] 階層状態無限隠れマルコフモデル2009
- 著者名/発表者名
  牧野貴樹
- 学会等名
  情報論的学習理論(IBIS)2009
- 発表場所
  九州大学(福岡市)
- 年月日
  2009-10-19
- 関連する報告書
  2009 実績報告書
[学会発表] Probabilistic discounting for modeling behaviors in Iowa gambling task2009
- 著者名/発表者名
  Takaki Makino, Taiki Takahashi, Hirofumi Nishinaka, and Hiroki Fukui
- 学会等名
  In Proceedings of Multi-disciplinary Symposium on Reinforcement Learning (MSRL2009)
- 発表場所
  Montreal, Canada
- 年月日
  2009-06-18
- 関連する報告書
  2010 研究成果報告書
[学会発表] Simple recurrent temporal-difference networks2008
- 著者名/発表者名
  Takaki Makino
- 学会等名
  情報論的学習理論ワークショップ (IBIS2008)
- 発表場所
  仙台市
- 年月日
  2008-10-29
- 関連する報告書
  2010 研究成果報告書
[学会発表] POのP環境中でのTD-Networkの自動獲得 : 単純再帰構造による拡張2008
- 著者名/発表者名
  牧野貴樹
- 学会等名
  人工知能学会第22回全国大会
- 発表場所
  ときわ市民ホール(旭川市)
- 年月日
  2008-10-29
- 関連する報告書
  2008 実績報告書
[学会発表] Simple Recurrent Temporal-Difference Networks2008
- 著者名/発表者名
  Takaki Makino
- 学会等名
  第11回情報論的学習論ワークショップ
- 発表場所
  仙台国際センター
- 年月日
  2008-10-29
- 関連する報告書
  2008 実績報告書
[学会発表] 自己観測原理 : 他者認知の数理的枠組2008
- 著者名/発表者名
  牧野貴樹, 合原一幸
- 学会等名
  第22回人工知能学会全国大会
- 発表場所
  旭川市
- 年月日
  2008-06-13
- 関連する報告書
  2010 研究成果報告書
[学会発表] POMDP環境中でのTD-networkの自動獲得 : 単純再帰構造による拡張2008
- 著者名/発表者名
  牧野貴樹
- 学会等名
  第22回人工知能学会全国大会
- 発表場所
  旭川市
- 年月日
  2008-06-13
- 関連する報告書
  2010 研究成果報告書
[図書] コミュニケーションの自己組織化. 国武豊喜 (監修), 自己組織化ハンドブック2009
- 著者名/発表者名
  牧野貴樹
- 出版者
  NTS出版
- 関連する報告書
  2010 研究成果報告書
[図書] Employing delay and probability discounting frameworks for a neuroeconomic understanding of gambling behavior. In M. J. Esposito, editor, Psychology of Gambling2008
- 著者名/発表者名
  Taiki Takahashi, Takaki Makino, Yu Ohmura, and Hiroki Fukui
- 出版者
  Nova Science
- 関連する報告書
  2010 研究成果報告書
[備考]
- URL
  http://www.sat.t.u-tokyo.ac.jp/~mak/
- 関連する報告書
  2010 研究成果報告書

帰納的強化学習の計算理論～環境の探索と帰納的再構成のベイズ推定

研究代表者

牧野 貴樹 東京大学, 生産技術研究所, 特任准教授 (20418651)

2,340千円 (直接経費: 1,800千円、間接経費: 540千円)

報告書

研究成果

[雑誌論文] Apprenticeship learning for model parameters of partially observable environments2012

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 部分観測環境のモデルパラメータに対する徒弟学習2012

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 強化学習(私のブックマーク)2011

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 利他的行動と再帰的他者推定2010

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] ノンパラメトリックベイズに基づく統計的機械学習2010

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Cultural neuroeconomics of intertemporal choice2009

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Proto-predictive representation of states with simple recurrent temporal-difference networks2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Proto-predictive representation of states with simple recurrent temporal-difference networks2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] コミュニケーションの自己組織化2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Proto-Predictive Representation of States with Simple Recurrent Temporal-Difference Networks2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] On-line discovery of temporal-difference networks2008

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] On-line Discovery of Temporal-Difference Networks2008

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Hierarchical Nested Infinite Hidden Markov Models2012

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Learning model parameters of partially observable markov decision process from demonstration2012

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 部分観測環境のモデルパラメータに対する徒弟学習2012

著者名/発表者名

学会等名

牧野貴樹東京大学, 生産技術研究所, 特任准教授 (20418651)