2005 Fiscal Year Annual Research Report

脳におけるモデル同定型強化学習機構とその工学的応用

Research Project

Project/Area Number	15300102
Research Institution	Nara Institute of Science and Technology
Principal Investigator	石井信奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)
Co-Investigator(Kenkyū-buntansha)	柴田智広奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40359873) 吉田和子奈良先端科学技術大学院大学, 情報科学研究科, 研究員 (30379599)
Keywords	強化学習 / モデル同定 / ロボット / ペイズ学習 / 前頭前野 / 意思決定
Research Abstract	強化学習は予測を伴う条件付け学習として動物の行動系におけるプリミティブな学習法であり、脳の学習機構を知る生物学においても、未知環境に適合するロボット創造などの工学応用にも重要である。特にヒトやロボットなどは非定常性のある困難な環境で意思決定をする必要がある。ベイズ推定法は、環境から逐次的に情報が与えられる状況での、環境同定法に自然な理論的枠組みを与える。したがって、非定常環境における最適意思決定過程を、ベイズ推定法と強化学習の組合せで考察し、工学応用を図ると共に、その組合わせになるモデルが脳内に存在し得るかどうかを調べることを目的とした。非定常で部分観測な環境をシステム同定するためのオンラインベイズ学習法を開発し、マルチエージェントゲームの自律学習に成功(藤田,2005;Fulita, submitted)、ヘビ型ロボットシミュレータの制御を行い(森,2005;Mori, submitted)、劣駆動ロボットであるアクロボット実機の振り上げ倒立制御に世界で初めて成功(西村,2005)、さらに膝のある2足歩行ロボット実機の準受動歩行学習に世界で初めて成功(Ueno, submitted)した。また、モデル同定型強化学習に関連する報酬関連活動の脳内モデルの存在を検証するための、ヒトやサルを用いた大脳皮質前頭前野活動の解析を行った。部分観測環境における意思決定に前頭前皮質が関わることをfMRI実験により解明し、特に部分観測環境でのベイズ推定の可能性を示唆した(Yoshida, submitted)。さらに、サルにdelayed saccard taskを行わせた際の電気生理学研究において、報酬予測と運動準備が異なる処理であることを明らかにした(Amemori,2005)。

Research Products
(13 results)

All 2005 Other

All Journal Article (12 results) Book (1 results)

[Journal Article] 複数制御器の切替え学習法による実アクロボットの制御2005
- Author(s)
  西村政哉
- Journal Title
  
  電子情報通信学会論文誌 J88-A・5
  
  Pages: 646-657
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] 方策こう配法に基づく強化学習法と二足歩行運動制御への応用2005
- Author(s)
  森健
- Journal Title
  
  電子情報通信学会論文誌 J88-D-II・6
  
  Pages: 1080-1089
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] 部分観測カードゲームのためのモデル同定型強化学習2005
- Author(s)
  藤田肇
- Journal Title
  
  電子情報通信学会論文誌 J88-D-II・11
  
  Pages: 2277-2287
- Description
  「研究成果報告書概要(和文)」より
[Journal Article] A reinforcement learning scheme for a partially-observable multi-agent game2005
- Author(s)
  S.Ishii
- Journal Title
  
  Machine Learning 59
  
  Pages: 1-54
[Journal Article] Acrobot control by learning the switching of multiple controllers2005
- Author(s)
  J.Yoshimoto
- Journal Title
  
  Journal of Artificial Life and Robotics 9・2
  
  Pages: 67-71
[Journal Article] Contrasting effects of rewards expectation on sensory and motor memories in primate prefrontal neurons2005
- Author(s)
  K.Amemori
- Journal Title
  
  Cerebral Cortex doi:10.1093/cercor/bhj042
[Journal Article] Off-policy natural policy gradient method for a biped walking using a CPG controller2005
- Author(s)
  Y.Nakamura
- Journal Title
  
  Journal of Robotics and Mechatronics 17・6
  
  Pages: 636-644
[Journal Article] Bayesian noisy ICA for source switching environments2005
- Author(s)
  J.Hirayama
- Journal Title
  
  IEEE Workshop for Statistical Signal Processing
  
  Pages: 232
[Journal Article] On-line learning of a feedback controller for quasi-passive-dynamic walking by a stochastic policy gradient method2005
- Author(s)
  K.Hitomi
- Journal Title
  
  IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
  
  Pages: 1923-1928
[Journal Article] An off-policy natural gradient method for a partial observable Markov decision process2005
- Author(s)
  Y.Nakamura
- Journal Title
  
  Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005 LNCS3697
  
  Pages: 431-436
[Journal Article] Balancing plasticity and stability of on-line learning based on hierarchical Bayesian adaptation of forgetting factors
- Author(s)
  J.Hirayama
- Journal Title
  
  Neurocomputing (to appear)
[Journal Article] 方策オフ型Natural Actor-Critic法
- Author(s)
  森健
- Journal Title
  
  電子情報通信学会論文誌 (to appear)
[Book] 脳の計算機構「-ボトムアップ・トップダウンのダイナミクス-」2005
- Author(s)
  佐藤雅昭
- Total Pages
  21
- Publisher
  朝倉書店

2005 Fiscal Year Annual Research Report

脳におけるモデル同定型強化学習機構とその工学的応用

Principal Investigator

石井 信 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)

Research Products

[Journal Article] 複数制御器の切替え学習法による実アクロボットの制御2005

Author(s)

Journal Title

Description

[Journal Article] 方策こう配法に基づく強化学習法と二足歩行運動制御への応用2005

Author(s)

Journal Title

Description

[Journal Article] 部分観測カードゲームのためのモデル同定型強化学習2005

Author(s)

Journal Title

Description

[Journal Article] A reinforcement learning scheme for a partially-observable multi-agent game2005

Author(s)

Journal Title

[Journal Article] Acrobot control by learning the switching of multiple controllers2005

Author(s)

Journal Title

[Journal Article] Contrasting effects of rewards expectation on sensory and motor memories in primate prefrontal neurons2005

Author(s)

Journal Title

[Journal Article] Off-policy natural policy gradient method for a biped walking using a CPG controller2005

Author(s)

Journal Title

[Journal Article] Bayesian noisy ICA for source switching environments2005

Author(s)

Journal Title

[Journal Article] On-line learning of a feedback controller for quasi-passive-dynamic walking by a stochastic policy gradient method2005

Author(s)

Journal Title

[Journal Article] An off-policy natural gradient method for a partial observable Markov decision process2005

Author(s)

Journal Title

[Journal Article] Balancing plasticity and stability of on-line learning based on hierarchical Bayesian adaptation of forgetting factors

Author(s)

Journal Title

[Journal Article] 方策オフ型Natural Actor-Critic法

Author(s)

Journal Title

[Book] 脳の計算機構「-ボトムアップ・トップダウンのダイナミクス-」2005

Author(s)

Total Pages

Publisher

石井信奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)