2003 Fiscal Year Annual Research Report
脳におけるモデル同定型強化学習 機構とその工学的応用
Project/Area Number |
15300102
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
石井 信 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
雨森 賢一 北海道大学, 大学院・医学研究科, 助手 (70344471)
柴田 智広 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40359873)
|
Keywords | 前頭前野 / 強化学習 / ベイズ推定 / システム同定 / ワーキングメモリ / ロボット制御 / 逐次モンテカルロ法 / 機能的磁気共鳴図 |
Research Abstract |
○ガウス過程のオンラインベイズ学習法の開発 ガウス過程、特に線形ダイナミカルシステムのオンラインベイズ学習法を開発し、強化学習に応用した(Yoshimoto, Ishii, Sato,2003)。これにより、環境の変化に追随しながら、システム次数やノイズの大きさを自動推定できる。一方で、環境変動を離散的なイベントとして推定する手法を開発し、現在論文投稿中である。一方で、ロボットの実機制御に用いることを目的として、非ガウス確率過程を仮定した逐次モンテカルロ法によるシステム同定法を開発し、移動型ロボットの位置推定(Kanemoto, Yoshimoto, Ishii,2004)、およびヒューマノイドロボットによる移動物体の指標追尾(論文投稿中)に応用した。 また、神経振動子を用いた2足歩行ロボットシミュレータの自動制御に成功した(中村,佐藤,石井,2004)。 ○サル神経生理学実験 ニホンザルに遅延期間中にルールが提示されるアンチサッカード課題を行わせ、背外側前頭前野の神経細胞活動を記録し、ワーキングメモリに関わるポピュレーション・ダイナミクスの解析を行った(論文投稿準備中)。 ○ヒト認知科学実験 機能的磁気共鳴図(fMRI)を用いて、マルコフ決定過程タスクを遂行する際のヒトの脳活動を調べ、特に背外側前頭前野が関わっていることを見い出した(Yoshida, Ishii,2003,および論文投稿中)。また、移動物体の指標追尾遂行時に、物体移動の予測の必要性に応じて、MT野とMST野とで有意に活動が異なることが分かった。
|
Research Products
(11 results)
-
[Publications] 吉本 潤一郎: "連続力学システムの自動制御のためのオンラインEM強化学習法"システム制御情報学会論文誌. 16・5. 209-217 (2003)
-
[Publications] 吉本 潤一郎: "変分法的ベイズ推定法に基づく正規化ガウス関数ネットワークと階層的モデル選択法"計測自動制御学会論文集. 39・5. 503-512 (2003)
-
[Publications] 中村 泰: "神経振動子ネットワークを用いた強化学習法による歩行運動の獲得"電子情報通信学会論文誌. J87-D-II・3. 893-902 (2004)
-
[Publications] Amemori, K.: "Self-organization of delay lines by spike-time-dependent learning"Neurocomputing. (to appear).
-
[Publications] 石井 信: "制御理論・強化学習への展開"数理科学. 489. 38-45 (2004)
-
[Publications] Yoshida, W.: "A model-based reinforcement learning : a computational model and an fMRI study"11th European Symposium on Artificial Neural Networks. 313-318 (2003)
-
[Publications] Yoshimoto, J.: "System identification based on on-line variational Bayes method and its application to reinforcement learning"Artificial Neural Networks and Neural Information Processing. LNCS2714. 123-131 (2003)
-
[Publications] Fujita, H.: "A reinforcement learning scheme for a multi-agent card game"IEEE International Conference on Systems, Man & Cybernetics. 4071-4078 (2003)
-
[Publications] Amemori, K.: "Neuronal representations in the primate dorsolateral prefrontal cortex during_memory-guided sensorimotor_transformation process"Neuroscience Research. 46・Supplement 1. S195 (2003)
-
[Publications] Kanemoto, K.: "A probabilistic approach to identify the environmental models of mobile robots"Proceedings of the Ninth International Symposium on Artificial Life and Robotics. 1. 329-332 (2004)
-
[Publications] Nishimura, M.: "Acrobot control by learning the switching of multiple controllers"Proceedings of the Ninth International Symposium on Artificial Life and Robotics. 2. 633-636 (2004)