2004 Fiscal Year Annual Research Report
脳におけるモデル同定型強化学習機構とその工学的応用
Project/Area Number |
15300102
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
石井 信 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 智広 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (40359873)
雨森 賢一 北海道大学, 大学院・医学研究科, 助手 (70344471)
|
Keywords | 強化学習 / 前頭前野 / 計算論的神経科学 / 視覚追従制御 / ロボット制御 / 非侵襲脳計測 |
Research Abstract |
ガウス確率過程に対するオンライン型ベイズ学習法に基づき、環境のシステム次数や環境変化を自動推定できる手法を開発し、論文発表を行った(Hirayama et al.)。環境の確率過程が非ガウスである場合に適用できるような、逐次モンテカルロ法に基づく手法を開発し、国際会議発表(Bando et al.)し、またその成果を視覚追従制御に応用した研究は論文投稿中である。また、上記のシステム同定法に基づいた強化学習法を開発し、2足歩行ロボットシミュレータあるいは多関節ロボットシミュレータに応用することで、ロバストな制御が可能になることを確認した。これについては論文投稿中である。また、この手法に基づく実機制御のため、多関節ロボットおよびヒューマノイドロボットの実機を制作中である。加えて、環境の確率過程に依存せずに直接マルコフ決定過程を解くことのできる手法を開発し、国際会議発表(Yohsimoto et al.)を行った。また、環境(相手)の予測を含む強化学習法をマルチエージェント環境に適用し、良い結果を得たので、論文として発表した(Ishii et al.)。 ニホンザルによるアンチサッカード課題を用いた電気生理学実験によって、報酬情報に基づく行動選択に前頭前野が大きく関わること、さらに動機付けに応じた行動の効率化に前頭眼野が関わることが分かった。この結果は現在論文執筆中である。 機能的核磁気共鳴図を用いて、部分観測環境、あるいは階層性がある環境での同定に関わる脳の情報処理機構の解析を行い、部分観測環境での同定には前部前頭前野、階層環境では背外側前頭前野の役割が大きいことが分かった。この成果の一部は国際会議発表(Funakoshi et al.)し、また論文執筆中である。
|
Research Products
(11 results)