2007 Fiscal Year Annual Research Report
複雑な環境における脳の意思決定モデルとロボット制御への応用
Project/Area Number |
18300101
|
Research Institution | Kyoto University |
Principal Investigator |
石井 信 Kyoto University, 情報学研究科, 教授 (90294280)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 智広 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40359873)
森 健 京都大学, 情報学研究科, 研究員 (00457144)
|
Keywords | 強化学習 / 部分観測 / 前頭前野 / 意思決定 / 計算論的認知心理学 / サンプリング / 多自由度ロボット |
Research Abstract |
線形確率システムとして表現できないような複雑な環境における最適意思決定過程を模擬する機械学習モデルを、強化学習に注目して構築し、工学応用、特に多自由度ロボットに対して変動する環境下での自律制御を行った。相手エージェントが存在するなど高度な推論を必要とするタスクを題材として、問題解決に関わる階層的な脳内モデルを構築し,非侵襲脳活動計測器を用いた認知科学実験を実施した。 1.強化学習のアルゴリズム開発:方策勾配法ベースの方策オフ型強化学習法に注目しながら新しい強化学習アルゴリズムを開発した。内部状態を持つ方策を学習することでマルチエージェント部分観測環境下でも適切な自律制御を行うことに成功した(Fujita and Ishii,2007)(Taniguchi,et al.,2007)。また、モジュール競合型アーキテクチャに対する制御の統計的学習法を導出した(Osaga,et al.,2008)。 2.階層的部分観測環境における神経基盤:2人のエージェントからなる部分観測課題における最適意思決定過程の神経基盤を調べるために、fMRIを用いた認知科学実験を行った。強化学習モデルを用いて脳内活動を調べた結果、相手エージェントの推定に前頭前野を中心とする脳内ネットワークが関わることが分かった。また、想定していた階層的意思決定タスクを用いた行動実験において、階層的な不確実性の設定が困難であることが判明し、予想通りに実験を進められないことがわかった。そこで、19年度研究内容に関し計画延長を申請し、20年度に、設定を変更したタスクを用いて行動実験およびfMRI脳活動計測実験を行った。時間領域において階層性があり、被験者が環境フィードバックに基づき現在の規則を同定しながら最適な意思決定を行う必要のあるタスクを設定し、行動実験およびfMRI脳活動計測実験を実施した。その結果、ヒトが階層性をある程度切り分けながら規則推定を行いつつ、適切な意思決定を行うことがわかった。 3.多自由度ロボットの強化学習法による制御:中枢パターン生成器に対する強化学習法をヘビ型ロボットに適用し、アクチュエータの故障などシステムの動的変化に追随できることを示した(Makino et al.,2008)。2足歩行準受動歩行ロボットでは、強化学習の変数にフィードバックに関する特徴量を加えることで、外乱に対してロバストな制御が実現された。
|