2005 Fiscal Year Annual Research Report
脳におけるモデル同定型強化学習機構とその工学的応用
Project/Area Number |
15300102
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
石井 信 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 智広 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40359873)
吉田 和子 奈良先端科学技術大学院大学, 情報科学研究科, 研究員 (30379599)
|
Keywords | 強化学習 / モデル同定 / ロボット / ペイズ学習 / 前頭前野 / 意思決定 |
Research Abstract |
強化学習は予測を伴う条件付け学習として動物の行動系におけるプリミティブな学習法であり、脳の学習機構を知る生物学においても、未知環境に適合するロボット創造などの工学応用にも重要である。特にヒトやロボットなどは非定常性のある困難な環境で意思決定をする必要がある。ベイズ推定法は、環境から逐次的に情報が与えられる状況での、環境同定法に自然な理論的枠組みを与える。したがって、非定常環境における最適意思決定過程を、ベイズ推定法と強化学習の組合せで考察し、工学応用を図ると共に、その組合わせになるモデルが脳内に存在し得るかどうかを調べることを目的とした。非定常で部分観測な環境をシステム同定するためのオンラインベイズ学習法を開発し、マルチエージェントゲームの自律学習に成功(藤田,2005;Fulita, submitted)、ヘビ型ロボットシミュレータの制御を行い(森,2005;Mori, submitted)、劣駆動ロボットであるアクロボット実機の振り上げ倒立制御に世界で初めて成功(西村,2005)、さらに膝のある2足歩行ロボット実機の準受動歩行学習に世界で初めて成功(Ueno, submitted)した。また、モデル同定型強化学習に関連する報酬関連活動の脳内モデルの存在を検証するための、ヒトやサルを用いた大脳皮質前頭前野活動の解析を行った。部分観測環境における意思決定に前頭前皮質が関わることをfMRI実験により解明し、特に部分観測環境でのベイズ推定の可能性を示唆した(Yoshida, submitted)。さらに、サルにdelayed saccard taskを行わせた際の電気生理学研究において、報酬予測と運動準備が異なる処理であることを明らかにした(Amemori,2005)。
|
Research Products
(13 results)