配分額 *注記 |
12,000千円 (直接経費: 12,000千円)
2005年度: 2,000千円 (直接経費: 2,000千円)
2004年度: 3,900千円 (直接経費: 3,900千円)
2003年度: 6,100千円 (直接経費: 6,100千円)
|
研究概要 |
◇ガウス過程のオンラインベイズ学習法の開発 ガウス確率過程に対するオンライン型ベイズ学習法に基づき、環境のシステム次数や環境変化を自動推定できる手法を開発した(Hirayama, et al.,2004)。混合ガウス過程のベイズ学習法とそのためのモデル構造選択アルゴリズムを開発した(吉本,他,2003)。環境の確率過程が非ガウス過程である場合に適用できるような、逐次モンテカルロ法に基づく手法を開発し、その成果を視覚追従制御に応用した(Bando, et al., in press)。 ◇オンライン学習法とモデル同定型強化学習法の工学応用 神経振動子を用いた2足歩行ロボットシミュレータの、強化学習による自律的な2足歩行運動制御に世界で初めて成功した(中村,他,2004)。また、方策勾配型の強化学習法を用いることに拡張した(森,他,2005)。オンライン学習法に基づくモデル同定法を用いて、2足歩行ロボットシミュレータの学習を加速した(Nakamura, et al., 2005)。またモデル同定法を用いて同定されたシステムを制御する制御器を強化学習法によりスイッチすることで、劣駆動型ロボットであるアクロボットの振り上げ倒立制御に成功した(西村,他,2005)。オンライン型のモデル同定法を用いて相手戦略を学習するエージェントを、モデル同定型強化学習による試行錯誤学習によって訓練することで、人間と同程度に強いトランプゲームプレーヤの作成に成功した(Ishii, et al., 2005;藤田,他,2005)。 ◇サル電気生理学実験による前頭前皮質情報処理機構の解明 ニホンザルによるアンチサッカード課題を用いた電気生理学実験によって、報酬情報に基づく刺激と行動の保持機構において、刺激保持は報酬に大きく依存するが、行動保持は余り依存しないことを見いだした(Amemori, et al.,2005)。 ◇ヒト前頭前皮質の情報処理機構のモデル化と認知実験による解明 マルコフ決定過程を遂行する際のヒトの情報処理過程のモデル化を行い、機能的磁気共鳴図(fMRI)を用いて脳活動を調べた結果、特に背外側前頭前皮質が関わっていることを見いだした(吉田,他,2005;Yoshida, et al.,2005)。環境に不確実性がある場合のマルコフ決定過程においては、前部前頭皮質の役割が重要であることを見いだした(Yoshida, et al.,in press)。
|