2008 Fiscal Year Annual Research Report

複雑な環境における脳の意思決定モデルとロボット制御への応用

Research Project

Project/Area Number	18300101
Research Institution	Kyoto University
Principal Investigator	石井信 Kyoto University, 情報学研究科, 教授 (90294280)
Co-Investigator(Kenkyū-buntansha)	柴田智広奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40359873)
Keywords	強化学習 / 意思決定 / 計算論的認知心理学 / 多自由度ロボット / 部分観測 / 前頭前野 / モジュール構造
Research Abstract	線形確率システムとして表現できないような複雑な環境における最適意思決定過程を模擬する機械学習モデルを、強化学習に注目して構築し、工学応用、特に多自由度ロボットに対する自律制御を行った。高度で階層的な推論を必要とするタスクを題材として、複雑な問題解決に関わる脳内モデルを構築し、非侵襲脳活動計測器を用いた認知科学実験により検証した。 1.強化学習のアルゴリズム開発方策勾配法ベースの強化学習法に注目しながら新しい強化学習アルゴリズムを開発した。予測器と制御器の対が複数あるようなモジュール型アーキテクチャに適用することで、変動する環境での適応的制御を可能とした(Hiei,et al.,2008)。方策内部にダイナミクスを保持した部分観測強化学習法のアルゴリズムを開発し、メモリを保持するものよりも効率が良いことを見出した(Taniguchi, et al., 2008)。また、強化学習のための価値関数の学習において、統計的に最適となる手法について理論的な結果を得た(Ueno, et al.,2008)。 2.階層型部分観測、および複数モダリティがある環境での意思決定の神経基盤複数の入力モダリティがあるような、あるいは階層性があるような部分観測環境における最適意思決定過程と推論過程の神経基盤を調べるために、fMRIを用いた認知科学実験を行い、モデルを用いた脳画像解析を行った。特に、アクティブサンプリングによるマルチモーダル環境の同定に着目して行動実験およびfMRI実験を行い、解析を進めた。行動実験データの解析から、ヒトがマルチモーダル環境において、計算資源を少なくしつつ環境の曖昧性を除去する情報処理を行っていることが示されたので、現在、計算モデルを用いた脳画像解析を行っている。この結果については、今年度に業績化する予定である。 3.多自由度ロボットの強化学習による制御 2足歩行において物理学的に相補的である2つのモジュール制御器、すなわち、ゼロモーメントポイント(ZMP)に基づく軌道追従制御と準受動歩行強化学習制御、とのハイブリッド型制御法を2足歩行シミュレータに実装した。後者は、関節角度を観測変数とした準受動歩行を実現し、また、エネルギー消費量を抑えつつ歩行距離を伸ばすよう、強化学習による環境適応を可能としている。また、実ロボットの制御実験に向けて、これまでに開発したロボットの足裏に圧力計測用のセンサシートを装着し、制御器実装を進めた。

Research Products
(9 results)

All 2009 2008

All Journal Article (4 results) (of which Peer Reviewed: 4 results) Presentation (5 results)

[Journal Article] Adaptive particle allocation for multifocal visual attention based on particle filtering2009
- Author(s)
  N. Yano
- Journal Title
  
  Artificial Life and Robotics 13
  
  Pages: 522-525
- Peer Reviewed
[Journal Article] Collaborative prediction by multiple Bayesian networks and its application to printer usage modeling2008
- Author(s)
  J. Hirayama
- Journal Title
  
  Behaviormetrika 35
  
  Pages: 99-114
- Peer Reviewed
[Journal Article] Virtual force/tactile sensors for interactive machines using user's biological signals2008
- Author(s)
  T. Tamei
- Journal Title
  
  Advanced Robotics 22
  
  Pages: 893-911
- Peer Reviewed
[Journal Article] Prediction of aperiodic target sequences by saccades2008
- Author(s)
  M. Shikauchi
- Journal Title
  
  Behavioural Brain Research 189
  
  Pages: 325-331
- Peer Reviewed
[Presentation] Online Multibody Factorization based on Bayesian Principal Component Analysis of Gaussian Mixture Models.2008
- Author(s)
  Hitomi, K., Bando, T., Fukaya, N., Ikeda, K., Shibata, T.
- Organizer
  15th International Conference on Neural Information Processing (ICONIP 2008)
- Place of Presentation
  オークランド(ニュージーランド)
- Year and Date
  2008-11-27
[Presentation] Interpreting dopamine activities in stochastic reward tasks2008
- Author(s)
  A. Asahina
- Organizer
  International Conference on Neural Information Processing
- Place of Presentation
  オークランド(ニュージーランド)
- Year and Date
  2008-11-26
[Presentation] A continuous internal-state controller for partially observable Markov decision processes2008
- Author(s)
  Y. Taniguchi
- Organizer
  Artificial Neural Networks-ICANN 2008, Lecture Notes in Computer Science
- Place of Presentation
  プラハ(チェコ)
- Year and Date
  2008-09-03
[Presentation] Self-organized reinforcement learning based on policy gradient in nonstationary environment2008
- Author(s)
  Y. Hiei
- Organizer
  Artificial Neural Networks-ICANN 2008, Lecture Notes in Computer Science
- Place of Presentation
  プラハ(チェロ)
- Year and Date
  2008-09-03
[Presentation] A semiparametric statistical approach to model-free policy evaluation2008
- Author(s)
  T. Ueno
- Organizer
  The 25th International Conference on Machine Learning (ICML)
- Place of Presentation
  ヘルシンキ(フィンランド)
- Year and Date
  2008-07-08

2008 Fiscal Year Annual Research Report

複雑な環境における脳の意思決定モデルとロボット制御への応用

Principal Investigator

石井 信 Kyoto University, 情報学研究科, 教授 (90294280)

Research Products

[Journal Article] Adaptive particle allocation for multifocal visual attention based on particle filtering2009

Author(s)

Journal Title

[Journal Article] Collaborative prediction by multiple Bayesian networks and its application to printer usage modeling2008

Author(s)

Journal Title

[Journal Article] Virtual force/tactile sensors for interactive machines using user's biological signals2008

Author(s)

Journal Title

[Journal Article] Prediction of aperiodic target sequences by saccades2008

Author(s)

Journal Title

[Presentation] Online Multibody Factorization based on Bayesian Principal Component Analysis of Gaussian Mixture Models.2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Interpreting dopamine activities in stochastic reward tasks2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A continuous internal-state controller for partially observable Markov decision processes2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Self-organized reinforcement learning based on policy gradient in nonstationary environment2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A semiparametric statistical approach to model-free policy evaluation2008

Author(s)

Organizer

Place of Presentation

Year and Date

石井信 Kyoto University, 情報学研究科, 教授 (90294280)