報酬最大化原理および大脳基底核モデルによるゴール指向性推論機能の自動的実装

研究課題

研究課題/領域番号	15700180
研究種目	若手研究(B)
配分区分	補助金
研究分野	感性情報学・ソフトコンピューティング
研究機関	東京工業大学
研究代表者	伊藤秀昭東京工業大学, 大学院・総合理工学研究科, 助手 (20345375)
研究期間 (年度)	2003 – 2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	1,800千円 (直接経費: 1,800千円) 2005年度: 500千円 (直接経費: 500千円) 2004年度: 500千円 (直接経費: 500千円) 2003年度: 800千円 (直接経費: 800千円)
キーワード	ゴール指向性推論 / 高次脳機能 / 報酬最大化 / 大脳基底核 / 部分観測マルコフ決定過程 / ダイナミックベイジアンネットワーク
研究概要	本研究は、ゴール指向性推論を始めとした、人間の脳の持つ様々な高次脳機能を包括的に実現するエージェントを設計することを目標としたものである。そのため、ゴール指向性推論に始めから特化してエージェントを設計するのではなく、「エージェントとその環境についてのある制約条件のもとで報酬最大化という最適化問題を解く」という形でエージェントを設計し、その結果として「ゴール指向性推論がエージェントに実装された」という現象を自動的に発生させることを試みた。前年度までの研究によりそのような現象が発生する具体例を考案していたが、最適化に長い時間がかかってしまうという問題があった。そこで本年度はその現象をより効率よく発生させることを目指して、新たな最適化手法の開発を行った。第一に、これまではエージェントが環境を直接には学習しない強化学習的手法を用いていたが、最適化が完了するまでに環境と多くのインタラクションを行う必要があり非効率的であった。そこで効率化のためには環境を学習させた方が良いのではないかと考え、そのための手法を開発した。特に、確率的な環境をコンパクトに表現する事ができるダイナミックベイジアンネットワークを用いることが有望であると考え、これを効率よく学習することができる手法を開発した。この成果については学会にて公表済みである。第二に、学習された環境をもとに効率よく最適化を行う手法も開発した。これについては論文を投稿中である。これらによってこれまでより大幅に効率的な最適化が可能となった。ただし、ゴール指向性推論の効率のよい発生が可能となる理論的条件やゴール指向性推論以外の機能の実現については十分検討できなかったため、今後の課題としたい。

報告書

(3件)

研究成果
(3件)

すべて 2005 2004 その他

すべて雑誌論文 (2件) 文献書誌 (1件)

[雑誌論文] A quasi-Bayes algorithm for fast and accurate online learning of Dynamic Bayesian Networks2005
- 著者名/発表者名
  Hideaki Itoh
- 雑誌名
  
  Proceedings of Eighth Workshop on Information-Based Induction Sciences
  
  ページ: 185-190
- 関連する報告書
  2005 実績報告書
[雑誌論文] Towards Learning to Learn and Plan by Relational Reinforcement Learning2004
- 著者名/発表者名
  Hideaki Itoh
- 雑誌名
  
  Proc. of Workshop on Relational Reinforcement Learning at the 21st International Conference on Machine Learning
  
  ページ: 34-39
- 関連する報告書
  2004 実績報告書
[文献書誌] Hiroyuki Nakahara: "Dopamine Neurons Can Represent Context-Dependent Prediction Error"Neuron. 41. 269-280 (2004)
- 関連する報告書
  2003 実績報告書

報酬最大化原理および大脳基底核モデルによるゴール指向性推論機能の自動的実装

研究代表者

伊藤 秀昭 東京工業大学, 大学院・総合理工学研究科, 助手 (20345375)

1,800千円 (直接経費: 1,800千円)

報告書

研究成果

[雑誌論文] A quasi-Bayes algorithm for fast and accurate online learning of Dynamic Bayesian Networks2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Towards Learning to Learn and Plan by Relational Reinforcement Learning2004

著者名/発表者名

雑誌名

関連する報告書

[文献書誌] Hiroyuki Nakahara: "Dopamine Neurons Can Represent Context-Dependent Prediction Error"Neuron. 41. 269-280 (2004)

関連する報告書

伊藤秀昭東京工業大学, 大学院・総合理工学研究科, 助手 (20345375)